跳转至

LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction

会议: ECCV 2024
arXiv: 2407.11335
代码: 有 (GitHub)
领域: 目标检测
关键词: 开放词汇目标检测, DETR, 语言模型指导, 类间关系, CLIP

一句话总结

提出 LaMI-DETR,通过利用 GPT 生成视觉概念描述和 T5 挖掘类间视觉相似性关系,解决开放词汇目标检测中概念表示不足和基类过拟合两大问题,在 OV-LVIS 上以 43.4 的 rare AP 超越前最佳方法 7.8 个点。

研究背景与动机

开放词汇目标检测(OVOD)旨在检测训练时未见过的新类别目标。现有方法通过 CLIP 等视觉-语言模型(VLM)的零样本能力来处理新类别,但面临两个核心挑战:

挑战一:概念表示不足

现有方法通常直接使用 CLIP 文本编码器对类别名称进行编码作为概念表示。但这种方式存在两方面的缺陷:

缺乏文本语义知识:CLIP 的文本编码器更关注字符组合的相似性,而非语义关系。例如在聚类分析中,"fireboat"(消防船)和 "fireweed"(杂草)因字符组成相似被聚为一类,这显然不合理。相比之下,T5 等语言模型能更好地理解语义层级关系。

缺乏视觉特征信息:仅用类别名称无法捕捉视觉相似性。例如 "sea-lion"(海狮)和 "dugong"(儒艮)在视觉上非常相似,但由于名称差异巨大,基于名称的表示会将它们分到不同的聚类中。

挑战二:基类过拟合

虽然 CLIP 的图像编码器具有强大的零样本识别能力,但训练检测器时只有基类标注数据可用,导致模型逐渐过拟合到基类上——新类目标容易被误分类为背景或基类。这个问题本质上是因为训练过程中模型只见过基类的前景-背景区分,缺乏对新类泛化的约束。

核心洞察:作者发现类间关系是解决上述两个问题的关键。通过建模类别之间的视觉相似性,一方面可以丰富概念表示,另一方面可以通过采样策略避免基类过拟合。这促使了 LaMI(Language Model Instruction)策略的提出。

方法详解

整体框架

LaMI-DETR 基于 DINO-DETR 架构,使用冻结的 CLIP ConvNext-L 作为视觉骨干网络,将最终分类层替换为 CLIP 文本嵌入。整体流程为:CLIP 图像编码器提取特征图 → Transformer Encoder 增强特征 → Transformer Decoder 生成 query 特征 → 边界框模块预测位置 + 分类。推理时结合 VLM 分数和检测分数进行校准:

\[S_c^{cal} = \begin{cases} (S_c^{vlm})^\alpha \cdot (S_c^{det})^{(1-\alpha)} & \text{if } c \in \mathcal{C}_B \\ (S_c^{vlm})^\beta \cdot (S_c^{det})^{(1-\beta)} & \text{if } c \in \mathcal{C}_N \end{cases}\]

与 CORA、EdaDet 等其他 OV-DETR 方法相比,LaMI-DETR 更简洁:只用单个骨干网、保留端到端结构(不需要 NMS)、推理时只需一次 RoI-Align 池化。

关键设计

  1. 类间关系提取(Inter-category Relationships Extraction):将 GPT-3.5 的知识与 T5 的判别性语义空间结合,构建视觉概念并度量类间关系。

核心流程: - 用 GPT-3.5 为每个类别 \(c \in \mathcal{C}\) 生成视觉描述 \(d\)(包括形状、颜色、大小等视觉属性),将类别名称转化为视觉概念 - 用 T5(Instructor Embedding)将视觉描述编码为嵌入 \(e \in \mathcal{E}\) - 对视觉描述嵌入 \(\mathcal{E}\) 进行 K-Means 聚类得到 \(K\) 个中心,同一聚类中的类别被视为视觉相似

设计动机:CLIP 文本编码器对字符组合敏感但缺乏语义理解;T5 具有更好的文本语义空间但缺乏视觉信息。GPT 生成的视觉描述弥补了视觉信息的不足。三者结合实现了文本语义 + 视觉属性的双重对齐。

  1. 视觉概念采样(Visual Concept Sampling):利用聚类结果缓解基类过拟合。

使用 Federated Loss 框架,在每个 minibatch 中随机采样 \(C_{fed}\) 个类别计算损失。关键改进是:排除与当前 GT 类别视觉相似的类别,只采样视觉差异大的"简单负类":

$\(p_c^{cal} = \begin{cases} 0 & \text{if } c \in \mathcal{C}_g \\ p_c & \text{if } c \notin \mathcal{C}_g \end{cases}\)$

其中 \(\mathcal{C}_g\) 是与 GT 类别同一聚类的所有类别。这迫使检测器学习更通用的前景特征,而非过拟合到基类特定特征。

  1. 语言嵌入融合(Language Embedding Fusion):将 CLIP 文本嵌入融合到 object query 中,提升分类精度。

在 Transformer Encoder 之后,选择 Top-N 得分最高的 query,与最接近的文本嵌入进行逐元素加法: $\(\{q_j\}_{j=1}^N = \{q_j \oplus t'_j\}_{j=1}^N\)$ 其中 \(t'_j\) 是由视觉描述更新后的 CLIP 文本嵌入。

  1. 混淆类别区分(Confusing Category):推理时改进 VLM 分数,区分视觉相似但语义不同的类别。

对每个推理类别 \(c\),找到 CLIP 文本空间中最相似的类别 \(c^{conf}\),修改 GPT prompt 让视觉描述强调 \(c\)\(c^{conf}\) 的区分特征。更新后的文本嵌入替代原始 VLM 分类权重,提升混淆类别间的区分度。

损失函数 / 训练策略

  • 基于 DINO-DETR 框架的标准检测损失(分类 + 回归),分类权重使用由视觉描述更新的 CLIP 文本嵌入
  • 使用 Federated Loss 进行随机类别采样(OV-LVIS 采样 100 类,VG-dedup 采样 700 类)
  • 采用 EMA 策略增强训练稳定性,Repeat Factor Sampling 平衡长尾分布
  • CLIP 图像编码器全程冻结,仅训练 Encoder、Decoder 和 BBox 模块
  • 新类推理时将新类 logit 乘以因子 5.0 补偿基类/新类分数差异

实验关键数据

主实验

OV-LVIS 基准(开放词汇检测):

方法 骨干网 骨干参数量 额外图像数据 AP_rare mAP
ViLD ViT-B/32 + R-50 26M 16.7 27.8
F-VLM R-50x64 420M 32.8 34.9
OWL-ViT ViT-L/14 306M 25.6 34.7
CFM-ViT ViT-L/16 303M ALIGN 35.6 38.5
LaMI-DETR ConvNext-L 196M 43.4 41.3

LaMI-DETR 在更小的骨干网(196M vs 303M)且不使用额外图像级数据的情况下,AP_rare 达到 43.4,超越 CFM-ViT 7.8 个点。

跨数据集迁移(OV-LVIS → COCO / Objects365):

方法 骨干网 COCO AP Objects365 AP
BARON RN50 36.2 13.6
CoDet EVA02-L 39.1 14.2
CFM ViT-L/16 - 18.7
LaMI-DETR ConvNext-L 42.8 21.9

消融实验

LaMI 各组件效果(OV-LVIS AP_rare):

配置 AP_rare 说明
Federated Loss only 32.2 基线
+ Language Embedding Fusion 33.0 +0.8,文本嵌入辅助
+ Visual Concepts Sampling 40.1 +7.1,聚类采样大幅提升
+ Embedding Update 42.5 +2.4,视觉描述更新分类权重
+ Confusing Category 43.4 +0.9,混淆类别区分

聚类策略消融:

聚类编码器 聚类文本 AP_rare 说明
无聚类 - 33.0 基线
CLIP Text Encoder name 33.5 +0.5,CLIP 语义空间不佳
T5 name 34.1 +1.1,T5 语义更好
T5 name + definition 31.5 -1.5,定义反而有害
T5 name + visual desc. 40.1 +7.1,视觉描述是关键

关键发现

  1. Visual Concept Sampling 贡献最大(+7.1 AP_rare),验证了利用类间视觉关系采样负类是缓解过拟合的最有效策略
  2. 视觉描述比定义更有效:GPT 生成的视觉属性描述在聚类中比百科定义更能反映类间视觉关系
  3. T5 比 CLIP 更适合做概念聚类:T5 的语义空间能更好地区分字符相似但语义不同的类别
  4. 推理速度 4.5 FPS(V100),优于 GLIP(0.12 FPS)和 GroundingDINO(1.5 FPS)

亮点与洞察

  • 类间关系的系统性利用:首次将 GPT 生成的视觉描述 + T5 的判别性嵌入 + K-Means 聚类三者结合,构建了一套完整的类间视觉关系提取和利用管道
  • 负采样策略的巧妙设计:通过排除与 GT 视觉相似的类别,将 Federated Loss 从简单的类别采样升级为语义感知的采样,核心思想是"不学难以区分的负类,让 CLIP 来区分"
  • 推理时的混淆类别处理:利用对比性 prompt("A 与 B 的区别是…")生成区分性视觉描述,进一步提升 VLM 分类精度
  • 架构简洁:相比 CORA 和 EdaDet 不需要解耦分类/回归、不需要多次 RoI-Align,保持了 DETR 的端到端优势

局限与展望

  • 目前仅使用 CLIP ConvNext-L 作为视觉骨干,未探索 ViT 等其他架构的效果
  • GPT API 调用引入了额外的成本和延迟(虽然只需要一次离线生成)
  • 聚类数 \(K\) 是超参数(OV-LVIS 用 128,VG-dedup 用 256),不同数据集需要调优
  • 新类推理时的 logit 缩放因子 5.0 也是经验值,缺乏理论依据
  • 26K+ 的视觉概念词典构建过程依赖 WordNet,可能遗漏新兴概念

相关工作与启发

  • 与 DetCLIP 的概念丰富策略不同,LaMI 的视觉描述更侧重目标的视觉属性而非抽象定义
  • Instructor Embedding (T5) 在度量语义相似性方面优于 CLIP 文本编码器,适合作为类间关系提取的工具
  • 负采样策略的思路可以推广到其他使用 Federated Loss 的大词汇量检测任务

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次系统性地利用 LLM 挖掘类间视觉关系并应用于 OVOD,思路新颖实用
  • 实验充分度: ⭐⭐⭐⭐⭐ — OV-LVIS / Zero-shot LVIS / 跨数据集迁移 + 详细消融,实验非常充分
  • 写作质量: ⭐⭐⭐⭐ — 图示直观,问题-方法对应关系清晰,但部分公式符号较多
  • 价值: ⭐⭐⭐⭐⭐ — AP_rare 提升 7.8 个点是开放词汇检测领域的显著突破,实用性强

相关论文