LaMI-DETR: Open-Vocabulary Detection with Language Model Instruction¶

会议: ECCV 2024
arXiv: 2407.11335
代码: 有 (GitHub)
领域: 目标检测
关键词: 开放词汇目标检测, DETR, 语言模型指导, 类间关系, CLIP

一句话总结¶

提出 LaMI-DETR，通过利用 GPT 生成视觉概念描述和 T5 挖掘类间视觉相似性关系，解决开放词汇目标检测中概念表示不足和基类过拟合两大问题，在 OV-LVIS 上以 43.4 的 rare AP 超越前最佳方法 7.8 个点。

研究背景与动机¶

开放词汇目标检测（OVOD）旨在检测训练时未见过的新类别目标。现有方法通过 CLIP 等视觉-语言模型（VLM）的零样本能力来处理新类别，但面临两个核心挑战：

挑战一：概念表示不足¶

现有方法通常直接使用 CLIP 文本编码器对类别名称进行编码作为概念表示。但这种方式存在两方面的缺陷：

缺乏文本语义知识：CLIP 的文本编码器更关注字符组合的相似性，而非语义关系。例如在聚类分析中，"fireboat"（消防船）和 "fireweed"（杂草）因字符组成相似被聚为一类，这显然不合理。相比之下，T5 等语言模型能更好地理解语义层级关系。

缺乏视觉特征信息：仅用类别名称无法捕捉视觉相似性。例如 "sea-lion"（海狮）和 "dugong"（儒艮）在视觉上非常相似，但由于名称差异巨大，基于名称的表示会将它们分到不同的聚类中。

挑战二：基类过拟合¶

虽然 CLIP 的图像编码器具有强大的零样本识别能力，但训练检测器时只有基类标注数据可用，导致模型逐渐过拟合到基类上——新类目标容易被误分类为背景或基类。这个问题本质上是因为训练过程中模型只见过基类的前景-背景区分，缺乏对新类泛化的约束。

核心洞察：作者发现类间关系是解决上述两个问题的关键。通过建模类别之间的视觉相似性，一方面可以丰富概念表示，另一方面可以通过采样策略避免基类过拟合。这促使了 LaMI（Language Model Instruction）策略的提出。

方法详解¶

整体框架¶

LaMI-DETR 基于 DINO-DETR 架构，使用冻结的 CLIP ConvNext-L 作为视觉骨干网络，将最终分类层替换为 CLIP 文本嵌入。整体流程为：CLIP 图像编码器提取特征图 → Transformer Encoder 增强特征 → Transformer Decoder 生成 query 特征 → 边界框模块预测位置 + 分类。推理时结合 VLM 分数和检测分数进行校准：

\[S_c^{cal} = \begin{cases} (S_c^{vlm})^\alpha \cdot (S_c^{det})^{(1-\alpha)} & \text{if } c \in \mathcal{C}_B \\ (S_c^{vlm})^\beta \cdot (S_c^{det})^{(1-\beta)} & \text{if } c \in \mathcal{C}_N \end{cases}\]

与 CORA、EdaDet 等其他 OV-DETR 方法相比，LaMI-DETR 更简洁：只用单个骨干网、保留端到端结构（不需要 NMS）、推理时只需一次 RoI-Align 池化。

关键设计¶

类间关系提取（Inter-category Relationships Extraction）：将 GPT-3.5 的知识与 T5 的判别性语义空间结合，构建视觉概念并度量类间关系。

核心流程： - 用 GPT-3.5 为每个类别 $c \in \mathcal{C}$ 生成视觉描述 $d$（包括形状、颜色、大小等视觉属性），将类别名称转化为视觉概念 - 用 T5（Instructor Embedding）将视觉描述编码为嵌入 $e \in \mathcal{E}$ - 对视觉描述嵌入 $\mathcal{E}$ 进行 K-Means 聚类得到 $K$ 个中心，同一聚类中的类别被视为视觉相似

设计动机：CLIP 文本编码器对字符组合敏感但缺乏语义理解；T5 具有更好的文本语义空间但缺乏视觉信息。GPT 生成的视觉描述弥补了视觉信息的不足。三者结合实现了文本语义 + 视觉属性的双重对齐。

视觉概念采样（Visual Concept Sampling）：利用聚类结果缓解基类过拟合。

使用 Federated Loss 框架，在每个 minibatch 中随机采样 $C_{fed}$ 个类别计算损失。关键改进是：排除与当前 GT 类别视觉相似的类别，只采样视觉差异大的"简单负类"：

$$p_c^{cal} = \begin{cases} 0 & \text{if } c \in \mathcal{C}_g \\ p_c & \text{if } c \notin \mathcal{C}_g \end{cases}$$

其中 $\mathcal{C}_g$ 是与 GT 类别同一聚类的所有类别。这迫使检测器学习更通用的前景特征，而非过拟合到基类特定特征。

语言嵌入融合（Language Embedding Fusion）：将 CLIP 文本嵌入融合到 object query 中，提升分类精度。

在 Transformer Encoder 之后，选择 Top-N 得分最高的 query，与最接近的文本嵌入进行逐元素加法： $$\{q_j\}_{j=1}^N = \{q_j \oplus t'_j\}_{j=1}^N$$ 其中 $t'_j$ 是由视觉描述更新后的 CLIP 文本嵌入。

混淆类别区分（Confusing Category）：推理时改进 VLM 分数，区分视觉相似但语义不同的类别。

对每个推理类别 $c$，找到 CLIP 文本空间中最相似的类别 $c^{conf}$，修改 GPT prompt 让视觉描述强调 $c$ 与 $c^{conf}$ 的区分特征。更新后的文本嵌入替代原始 VLM 分类权重，提升混淆类别间的区分度。

损失函数 / 训练策略¶

基于 DINO-DETR 框架的标准检测损失（分类 + 回归），分类权重使用由视觉描述更新的 CLIP 文本嵌入
使用 Federated Loss 进行随机类别采样（OV-LVIS 采样 100 类，VG-dedup 采样 700 类）
采用 EMA 策略增强训练稳定性，Repeat Factor Sampling 平衡长尾分布
CLIP 图像编码器全程冻结，仅训练 Encoder、Decoder 和 BBox 模块
新类推理时将新类 logit 乘以因子 5.0 补偿基类/新类分数差异

实验关键数据¶

主实验¶

OV-LVIS 基准（开放词汇检测）:

方法	骨干网	骨干参数量	额外图像数据	AP_rare	mAP
ViLD	ViT-B/32 + R-50	26M	✗	16.7	27.8
F-VLM	R-50x64	420M	✗	32.8	34.9
OWL-ViT	ViT-L/14	306M	✗	25.6	34.7
CFM-ViT	ViT-L/16	303M	ALIGN	35.6	38.5
LaMI-DETR	ConvNext-L	196M	✗	43.4	41.3

LaMI-DETR 在更小的骨干网（196M vs 303M）且不使用额外图像级数据的情况下，AP_rare 达到 43.4，超越 CFM-ViT 7.8 个点。

跨数据集迁移（OV-LVIS → COCO / Objects365）:

方法	骨干网	COCO AP	Objects365 AP
BARON	RN50	36.2	13.6
CoDet	EVA02-L	39.1	14.2
CFM	ViT-L/16	-	18.7
LaMI-DETR	ConvNext-L	42.8	21.9

消融实验¶

LaMI 各组件效果（OV-LVIS AP_rare）:

配置	AP_rare	说明
Federated Loss only	32.2	基线
+ Language Embedding Fusion	33.0	+0.8，文本嵌入辅助
+ Visual Concepts Sampling	40.1	+7.1，聚类采样大幅提升
+ Embedding Update	42.5	+2.4，视觉描述更新分类权重
+ Confusing Category	43.4	+0.9，混淆类别区分

聚类策略消融:

聚类编码器	聚类文本	AP_rare	说明
无聚类	-	33.0	基线
CLIP Text Encoder	name	33.5	+0.5，CLIP 语义空间不佳
T5	name	34.1	+1.1，T5 语义更好
T5	name + definition	31.5	-1.5，定义反而有害
T5	name + visual desc.	40.1	+7.1，视觉描述是关键

关键发现¶

Visual Concept Sampling 贡献最大（+7.1 AP_rare），验证了利用类间视觉关系采样负类是缓解过拟合的最有效策略
视觉描述比定义更有效：GPT 生成的视觉属性描述在聚类中比百科定义更能反映类间视觉关系
T5 比 CLIP 更适合做概念聚类：T5 的语义空间能更好地区分字符相似但语义不同的类别
推理速度 4.5 FPS（V100），优于 GLIP（0.12 FPS）和 GroundingDINO（1.5 FPS）

亮点与洞察¶

类间关系的系统性利用：首次将 GPT 生成的视觉描述 + T5 的判别性嵌入 + K-Means 聚类三者结合，构建了一套完整的类间视觉关系提取和利用管道
负采样策略的巧妙设计：通过排除与 GT 视觉相似的类别，将 Federated Loss 从简单的类别采样升级为语义感知的采样，核心思想是"不学难以区分的负类，让 CLIP 来区分"
推理时的混淆类别处理：利用对比性 prompt（"A 与 B 的区别是…"）生成区分性视觉描述，进一步提升 VLM 分类精度
架构简洁：相比 CORA 和 EdaDet 不需要解耦分类/回归、不需要多次 RoI-Align，保持了 DETR 的端到端优势

局限与展望¶

目前仅使用 CLIP ConvNext-L 作为视觉骨干，未探索 ViT 等其他架构的效果
GPT API 调用引入了额外的成本和延迟（虽然只需要一次离线生成）
聚类数 $K$ 是超参数（OV-LVIS 用 128，VG-dedup 用 256），不同数据集需要调优
新类推理时的 logit 缩放因子 5.0 也是经验值，缺乏理论依据
26K+ 的视觉概念词典构建过程依赖 WordNet，可能遗漏新兴概念

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统性地利用 LLM 挖掘类间视觉关系并应用于 OVOD，思路新颖实用
实验充分度: ⭐⭐⭐⭐⭐ — OV-LVIS / Zero-shot LVIS / 跨数据集迁移 + 详细消融，实验非常充分
写作质量: ⭐⭐⭐⭐ — 图示直观，问题-方法对应关系清晰，但部分公式符号较多
价值: ⭐⭐⭐⭐⭐ — AP_rare 提升 7.8 个点是开放词汇检测领域的显著突破，实用性强