LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction¶
会议: ECCV 2024
arXiv: 2407.11335
代码: 有 (GitHub)
领域: 目标检测
关键词: 开放词汇目标检测, DETR, 语言模型指导, 类间关系, CLIP
一句话总结¶
提出 LaMI-DETR,通过利用 GPT 生成视觉概念描述和 T5 挖掘类间视觉相似性关系,解决开放词汇目标检测中概念表示不足和基类过拟合两大问题,在 OV-LVIS 上以 43.4 的 rare AP 超越前最佳方法 7.8 个点。
研究背景与动机¶
开放词汇目标检测(OVOD)旨在检测训练时未见过的新类别目标。现有方法通过 CLIP 等视觉-语言模型(VLM)的零样本能力来处理新类别,但面临两个核心挑战:
挑战一:概念表示不足¶
现有方法通常直接使用 CLIP 文本编码器对类别名称进行编码作为概念表示。但这种方式存在两方面的缺陷:
缺乏文本语义知识:CLIP 的文本编码器更关注字符组合的相似性,而非语义关系。例如在聚类分析中,"fireboat"(消防船)和 "fireweed"(杂草)因字符组成相似被聚为一类,这显然不合理。相比之下,T5 等语言模型能更好地理解语义层级关系。
缺乏视觉特征信息:仅用类别名称无法捕捉视觉相似性。例如 "sea-lion"(海狮)和 "dugong"(儒艮)在视觉上非常相似,但由于名称差异巨大,基于名称的表示会将它们分到不同的聚类中。
挑战二:基类过拟合¶
虽然 CLIP 的图像编码器具有强大的零样本识别能力,但训练检测器时只有基类标注数据可用,导致模型逐渐过拟合到基类上——新类目标容易被误分类为背景或基类。这个问题本质上是因为训练过程中模型只见过基类的前景-背景区分,缺乏对新类泛化的约束。
核心洞察:作者发现类间关系是解决上述两个问题的关键。通过建模类别之间的视觉相似性,一方面可以丰富概念表示,另一方面可以通过采样策略避免基类过拟合。这促使了 LaMI(Language Model Instruction)策略的提出。
方法详解¶
整体框架¶
LaMI-DETR 基于 DINO-DETR 架构,使用冻结的 CLIP ConvNext-L 作为视觉骨干网络,将最终分类层替换为 CLIP 文本嵌入。整体流程为:CLIP 图像编码器提取特征图 → Transformer Encoder 增强特征 → Transformer Decoder 生成 query 特征 → 边界框模块预测位置 + 分类。推理时结合 VLM 分数和检测分数进行校准:
与 CORA、EdaDet 等其他 OV-DETR 方法相比,LaMI-DETR 更简洁:只用单个骨干网、保留端到端结构(不需要 NMS)、推理时只需一次 RoI-Align 池化。
关键设计¶
- 类间关系提取(Inter-category Relationships Extraction):将 GPT-3.5 的知识与 T5 的判别性语义空间结合,构建视觉概念并度量类间关系。
核心流程: - 用 GPT-3.5 为每个类别 \(c \in \mathcal{C}\) 生成视觉描述 \(d\)(包括形状、颜色、大小等视觉属性),将类别名称转化为视觉概念 - 用 T5(Instructor Embedding)将视觉描述编码为嵌入 \(e \in \mathcal{E}\) - 对视觉描述嵌入 \(\mathcal{E}\) 进行 K-Means 聚类得到 \(K\) 个中心,同一聚类中的类别被视为视觉相似
设计动机:CLIP 文本编码器对字符组合敏感但缺乏语义理解;T5 具有更好的文本语义空间但缺乏视觉信息。GPT 生成的视觉描述弥补了视觉信息的不足。三者结合实现了文本语义 + 视觉属性的双重对齐。
- 视觉概念采样(Visual Concept Sampling):利用聚类结果缓解基类过拟合。
使用 Federated Loss 框架,在每个 minibatch 中随机采样 \(C_{fed}\) 个类别计算损失。关键改进是:排除与当前 GT 类别视觉相似的类别,只采样视觉差异大的"简单负类":
$\(p_c^{cal} = \begin{cases} 0 & \text{if } c \in \mathcal{C}_g \\ p_c & \text{if } c \notin \mathcal{C}_g \end{cases}\)$
其中 \(\mathcal{C}_g\) 是与 GT 类别同一聚类的所有类别。这迫使检测器学习更通用的前景特征,而非过拟合到基类特定特征。
- 语言嵌入融合(Language Embedding Fusion):将 CLIP 文本嵌入融合到 object query 中,提升分类精度。
在 Transformer Encoder 之后,选择 Top-N 得分最高的 query,与最接近的文本嵌入进行逐元素加法: $\(\{q_j\}_{j=1}^N = \{q_j \oplus t'_j\}_{j=1}^N\)$ 其中 \(t'_j\) 是由视觉描述更新后的 CLIP 文本嵌入。
- 混淆类别区分(Confusing Category):推理时改进 VLM 分数,区分视觉相似但语义不同的类别。
对每个推理类别 \(c\),找到 CLIP 文本空间中最相似的类别 \(c^{conf}\),修改 GPT prompt 让视觉描述强调 \(c\) 与 \(c^{conf}\) 的区分特征。更新后的文本嵌入替代原始 VLM 分类权重,提升混淆类别间的区分度。
损失函数 / 训练策略¶
- 基于 DINO-DETR 框架的标准检测损失(分类 + 回归),分类权重使用由视觉描述更新的 CLIP 文本嵌入
- 使用 Federated Loss 进行随机类别采样(OV-LVIS 采样 100 类,VG-dedup 采样 700 类)
- 采用 EMA 策略增强训练稳定性,Repeat Factor Sampling 平衡长尾分布
- CLIP 图像编码器全程冻结,仅训练 Encoder、Decoder 和 BBox 模块
- 新类推理时将新类 logit 乘以因子 5.0 补偿基类/新类分数差异
实验关键数据¶
主实验¶
OV-LVIS 基准(开放词汇检测):
| 方法 | 骨干网 | 骨干参数量 | 额外图像数据 | AP_rare | mAP |
|---|---|---|---|---|---|
| ViLD | ViT-B/32 + R-50 | 26M | ✗ | 16.7 | 27.8 |
| F-VLM | R-50x64 | 420M | ✗ | 32.8 | 34.9 |
| OWL-ViT | ViT-L/14 | 306M | ✗ | 25.6 | 34.7 |
| CFM-ViT | ViT-L/16 | 303M | ALIGN | 35.6 | 38.5 |
| LaMI-DETR | ConvNext-L | 196M | ✗ | 43.4 | 41.3 |
LaMI-DETR 在更小的骨干网(196M vs 303M)且不使用额外图像级数据的情况下,AP_rare 达到 43.4,超越 CFM-ViT 7.8 个点。
跨数据集迁移(OV-LVIS → COCO / Objects365):
| 方法 | 骨干网 | COCO AP | Objects365 AP |
|---|---|---|---|
| BARON | RN50 | 36.2 | 13.6 |
| CoDet | EVA02-L | 39.1 | 14.2 |
| CFM | ViT-L/16 | - | 18.7 |
| LaMI-DETR | ConvNext-L | 42.8 | 21.9 |
消融实验¶
LaMI 各组件效果(OV-LVIS AP_rare):
| 配置 | AP_rare | 说明 |
|---|---|---|
| Federated Loss only | 32.2 | 基线 |
| + Language Embedding Fusion | 33.0 | +0.8,文本嵌入辅助 |
| + Visual Concepts Sampling | 40.1 | +7.1,聚类采样大幅提升 |
| + Embedding Update | 42.5 | +2.4,视觉描述更新分类权重 |
| + Confusing Category | 43.4 | +0.9,混淆类别区分 |
聚类策略消融:
| 聚类编码器 | 聚类文本 | AP_rare | 说明 |
|---|---|---|---|
| 无聚类 | - | 33.0 | 基线 |
| CLIP Text Encoder | name | 33.5 | +0.5,CLIP 语义空间不佳 |
| T5 | name | 34.1 | +1.1,T5 语义更好 |
| T5 | name + definition | 31.5 | -1.5,定义反而有害 |
| T5 | name + visual desc. | 40.1 | +7.1,视觉描述是关键 |
关键发现¶
- Visual Concept Sampling 贡献最大(+7.1 AP_rare),验证了利用类间视觉关系采样负类是缓解过拟合的最有效策略
- 视觉描述比定义更有效:GPT 生成的视觉属性描述在聚类中比百科定义更能反映类间视觉关系
- T5 比 CLIP 更适合做概念聚类:T5 的语义空间能更好地区分字符相似但语义不同的类别
- 推理速度 4.5 FPS(V100),优于 GLIP(0.12 FPS)和 GroundingDINO(1.5 FPS)
亮点与洞察¶
- 类间关系的系统性利用:首次将 GPT 生成的视觉描述 + T5 的判别性嵌入 + K-Means 聚类三者结合,构建了一套完整的类间视觉关系提取和利用管道
- 负采样策略的巧妙设计:通过排除与 GT 视觉相似的类别,将 Federated Loss 从简单的类别采样升级为语义感知的采样,核心思想是"不学难以区分的负类,让 CLIP 来区分"
- 推理时的混淆类别处理:利用对比性 prompt("A 与 B 的区别是…")生成区分性视觉描述,进一步提升 VLM 分类精度
- 架构简洁:相比 CORA 和 EdaDet 不需要解耦分类/回归、不需要多次 RoI-Align,保持了 DETR 的端到端优势
局限与展望¶
- 目前仅使用 CLIP ConvNext-L 作为视觉骨干,未探索 ViT 等其他架构的效果
- GPT API 调用引入了额外的成本和延迟(虽然只需要一次离线生成)
- 聚类数 \(K\) 是超参数(OV-LVIS 用 128,VG-dedup 用 256),不同数据集需要调优
- 新类推理时的 logit 缩放因子 5.0 也是经验值,缺乏理论依据
- 26K+ 的视觉概念词典构建过程依赖 WordNet,可能遗漏新兴概念
相关工作与启发¶
- 与 DetCLIP 的概念丰富策略不同,LaMI 的视觉描述更侧重目标的视觉属性而非抽象定义
- Instructor Embedding (T5) 在度量语义相似性方面优于 CLIP 文本编码器,适合作为类间关系提取的工具
- 负采样策略的思路可以推广到其他使用 Federated Loss 的大词汇量检测任务
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统性地利用 LLM 挖掘类间视觉关系并应用于 OVOD,思路新颖实用
- 实验充分度: ⭐⭐⭐⭐⭐ — OV-LVIS / Zero-shot LVIS / 跨数据集迁移 + 详细消融,实验非常充分
- 写作质量: ⭐⭐⭐⭐ — 图示直观,问题-方法对应关系清晰,但部分公式符号较多
- 价值: ⭐⭐⭐⭐⭐ — AP_rare 提升 7.8 个点是开放词汇检测领域的显著突破,实用性强
相关论文¶
- [CVPR 2025] MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism
- [CVPR 2026] NoOVD: Novel Category Discovery and Embedding for Open-Vocabulary Object Detection
- [CVPR 2026] Parameter-Efficient Semantic Augmentation for Enhancing Open-Vocabulary Object Detection
- [ECCV 2024] Efficient Inference of Vision Instruction-Following Models with Elastic Cache
- [NeurIPS 2025] DitHub: A Modular Framework for Incremental Open-Vocabulary Object Detection