Visual Modality Prompt for Adapting Vision-Language Object Detectors¶

会议: ICCV 2025
arXiv: 2412.00622
代码: GitHub
领域: 目标检测
关键词: 视觉提示, 模态适应, 视觉-语言检测器, 零样本检测, 跨模态迁移

一句话总结¶

提出 ModPrompt，一种基于编码器-解码器的视觉提示策略，将视觉-语言目标检测器（如 YOLO-World、Grounding DINO）适应到红外和深度等新模态，同时保留零样本检测能力。

研究背景与动机¶

视觉-语言目标检测器（如 YOLO-World、Grounding DINO）通过融合文本语义和视觉特征，在 RGB 图像上展现出强大的零样本检测能力。然而，当测试域发生较大模态偏移（如从 RGB 到红外或深度图）时，这些检测器的性能会显著下降。

现有适应方法存在以下局限性：

全量微调（Full Fine-tuning）：虽能提升目标模态的检测精度，但会导致灾难性遗忘，丧失零样本检测能力

传统视觉提示（Visual Prompt）：对每张图像施加相同的线性提示变换（如固定 patch、随机 padding），不依赖输入图像内容，在大模态偏移场景下效果有限

图像翻译方法（如 HalluciDet、ModTr）：仅适用于传统检测器，未探索视觉-语言检测器的跨模态适应；且一些方法会丢失预训练知识

核心动机在于：能否在不修改检测器参数的前提下，通过一个依赖于输入图像的可学习视觉提示，将新模态图像"翻译"为检测器更容易理解的伪 RGB 表示，从而同时实现高精度检测和零样本能力的保留？

方法详解¶

整体框架¶

ModPrompt 的核心思想是在输入空间（像素级别）进行模态适应。整体流程为：将目标模态图像 \(x\) 通过一个可学习的编码器-解码器网络 \(h_\vartheta\) 生成视觉提示，然后将提示与原始图像相加，形成伪 RGB 图像送入冻结的视觉-语言检测器。同时，引入 MPDR（Modality Prompt Decoupled Residual）机制对文本嵌入进行解耦适应。

关键设计¶

ModPrompt（模态提示编码器-解码器）:
- 功能：根据输入图像动态生成视觉提示，实现像素级的模态翻译
- 核心思路：采用基于 U-Net 的编码器-解码器结构（可使用 MobileNet 或 ResNet 作为骨干网络），将输入图像映射为 3 通道的提示图像，输出值约束在 \([0,1]\) 范围内。训练目标为检测损失而非重建损失： \(\mathcal{C}_{\text{mp}}(\vartheta) = \frac{1}{|\mathcal{D}|}\sum_{(x,Y)\in\mathcal{D}} \mathcal{L}_{det}(f_\theta(x + h_\vartheta(x)), Y)\) 其中 \(f_\theta\) 为冻结的检测器，\(h_\vartheta(x)\) 为依赖输入的视觉提示
- 设计动机：与固定视觉提示不同，ModPrompt 是输入条件化的——不同图像生成不同的提示,能更好地增强目标区域并抑制背景噪声，特别适用于模态差异大的场景
MPDR（模态提示解耦残差）:
- 功能：在文本嵌入空间进行高效的模态适应，同时保留原始零样本知识
- 核心思路：预先计算每个目标类别的文本嵌入（离线生成），然后学习一组可训练的残差参数 \(\phi\)，将其加到冻结的嵌入上。最终训练目标为： \(\mathcal{C}_{\text{mp-tp}}(\vartheta, \phi) = \mathcal{C}_{\text{mp}}(\vartheta) + \mathcal{C}_{\text{tp}}(\phi)\)
- 设计动机：通过解耦策略，在测试时可通过零掩码关闭 MPDR 恢复完全的零样本嵌入知识，或开启以使用适应后的嵌入，无推理开销
检测器无关设计:
- 功能：使 ModPrompt 可灵活集成到不同架构的视觉-语言检测器中
- 核心思路：由于提示作用在输入像素层面而非特征层面，与检测器骨干类型无关（CNN 或 Transformer 均可）
- 设计动机：已有方法大多和特定检测器绑定，而 ModPrompt 在 YOLO-World（CNN 骨干 + CLIP）和 Grounding DINO（Swin Transformer + BERT）上均适用

损失函数 / 训练策略¶

训练损失为原始检测器的检测损失 \(\mathcal{L}_{det}\)，包含分类和回归损失
仅训练编码器-解码器参数 \(\vartheta\) 和 MPDR 参数 \(\phi\)，检测器所有参数冻结
YOLO-World 训练 80 个 epoch，Grounding DINO 训练 60 个 epoch
文本嵌入分别用 CLIP-ViT-base-patch32（YOLO-World）和 BERT-base-uncased（Grounding DINO）离线提取

实验关键数据¶

主实验¶

数据集	方法	YOLO-World AP50	YOLO-World AP	Grounding DINO AP50	Grounding DINO AP
LLVIP-IR	Zero-Shot	81.00	53.20	85.50	56.50
LLVIP-IR	Full FT	97.43	67.73	97.17	67.83
LLVIP-IR	Visual Prompt (WM)	82.00	50.90	69.57	40.77
LLVIP-IR	ModPrompt	92.80	62.87	93.13	60.10
NYUv2-Depth	Zero-Shot	4.80	3.00	8.30	5.30
NYUv2-Depth	Full FT	49.90	33.57	51.60	35.77
NYUv2-Depth	ModPrompt	37.17	24.93	21.70	14.13

ModPrompt 在红外和深度模态上均显著超越所有视觉提示基线，在 LLVIP 上接近全量微调性能。

消融实验¶

配置	LLVIP AP50	COCO AP50	平均	说明
Zero-Shot	81.00	51.90	66.45	基线
Full FT	97.43	0.10	48.77	丧失零样本能力
Head FT	93.57	0.66	47.12	同样灾难性遗忘
WM	87.47	51.90	69.69	保留零样本但精度有限
ModPrompt	95.63	51.90	73.77	高精度 + 完整零样本

可训练参数：ModPrompt 仅 3.08M，远低于 Full FT 的 76.81M
MobileNet 骨干即可接近 ResNet 的检测性能，更适合实时应用
MPDR 对几乎所有视觉提示策略均带来额外增益（+0.6 到 +8.0 AP50）

关键发现¶

传统视觉提示（固定 patch、随机 patch）在模态适应场景下甚至可能劣于零样本，因为它们不依赖输入图像内容
ModPrompt 生成的视觉提示会在图像上产生"伪影"来增强目标区域并抑制背景
在 NYUv2（深度图）上零样本性能极低（AP 仅 3-5%），说明 RGB 预训练模型在跨模态场景面临巨大挑战

亮点与洞察¶

实用性强：ModPrompt 在保留零样本能力的同时实现了接近全量微调的精度，这在实际部署中极有价值——同一模型可同时处理 RGB 和新模态任务
设计简洁优雅：输入条件化的视觉提示思想直观且有效，将 U-Net 用于检测引导的图像翻译是一个巧妙的转变
首次系统研究：据我们所知，这是首个聚焦于将 VLM 检测器适应到新视觉模态的工作

局限与展望¶

在精细定位（AP75 和 AP）上仍与全量微调有差距，尤其是小目标场景
目前仅在红外和深度两种模态上验证，未涉及 SAR、热成像灰度等
编码器-解码器会引入额外推理延迟，虽然 MobileNet 版本较轻量，但仍非零开销
仅在 LLVIP（行人类别）和 NYUv2（室内场景）上验证，数据集规模和类别多样性相对有限

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统探索 VLM 检测器的跨模态适应，设计简洁有效
实验充分度: ⭐⭐⭐⭐ 两个检测器、三个数据集、多种基线、丰富消融
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法表述直观
价值: ⭐⭐⭐⭐ 对多模态检测部署有实际意义，开源代码可复现