跳转至

SDDF: Specificity-Driven Dynamic Focusing for Open-Vocabulary Camouflaged Object Detection

会议: CVPR 2026
arXiv: 2603.26109
代码: https://github.com/Zh1fen/SDDF
领域: 目标检测
关键词: 开放词汇目标检测, 伪装目标检测, 视觉语言模型, 细粒度描述, 动态聚焦

一句话总结

SDDF 提出开放词汇伪装目标检测(OVCOD)新任务,构建了 OVCOD-D 基准,通过子描述主成分对比融合策略去除冗余文本噪声,以及特异性引导的区域弱对齐和动态聚焦机制增强伪装目标与背景的区分能力,在开集设置下达到 56.4 AP。

研究背景与动机

开放词汇目标检测(OVOD)借助视觉语言预训练模型实现了强大的零样本泛化能力。但面对伪装目标时,检测器无法有效区分目标与背景——因为伪装目标的视觉特征与背景高度相似。

两个核心问题:(1) 文本嵌入冗余——由多模态大模型生成的细粒度描述中包含大量多余的修饰语,在跨模态学习中引入噪声,误导视觉特征提取。(2) 目标-背景嵌入高度相似——伪装目标与背景在嵌入空间中的决策边界难以学习。

本文切入:利用 SVD 分解去除文本描述中的噪声成分,利用目标特异性语义先验引导视觉特征聚焦于真正的目标区域。

方法详解

整体框架

基于预训练的轻量级 YOLO 架构,输入图像经视觉编码器提取特征,同时处理细粒度文本描述。通过子描述主成分对比融合获取纯净的文本嵌入,再通过特异性引导的区域弱对齐和 SF-GLU 动态聚焦增强目标-背景区分。

关键设计

  1. 子描述主成分对比融合策略:

    • 功能:去除文本描述中的冗余干扰成分,保留特异性和多样性信息
    • 核心思路:将细粒度文本描述拆分为多个子描述,对每个子描述提取嵌入后用 SVD 分解。移除主成分中与噪声对应的维度,然后利用子描述在目标区域和背景区域的对比性进行融合——保留那些对目标-背景区分贡献最大的成分
    • 设计动机:多模态大模型生成的描述虽然细粒度,但词汇多样性低(统计显示 avg_unique_ratio 偏低),冗余修饰语会在对比学习中误导视觉特征方向
  2. 特异性引导的区域弱对齐:

    • 功能:增强具有目标特异性的区域与真实目标区域的对应关系
    • 核心思路:设计基于覆盖率的损失函数,鼓励模型预测的特异性区域逐步覆盖真实目标区域。这是一种"弱"对齐——不要求像素级精确,只要求区域级覆盖,从而在缺乏精细标注时也能有效引导
    • 设计动机:伪装目标的视觉边界本身就模糊,强制像素级对齐不现实也没必要,弱对齐更鲁棒
  3. 空间聚焦门控线性单元 (SF-GLU):

    • 功能:在目标子描述引导下动态增强目标区域的视觉特征响应
    • 核心思路:将目标的子描述信息作为条件,通过门控机制在空间维度上选择性增强视觉特征。对于与目标描述匹配的区域放大响应,对背景区域抑制响应,从而在特征层面拉开伪装目标与背景的距离
    • 设计动机:伪装目标的特征响应通常被背景淹没,需要主动的动态增强机制来突出目标

损失函数 / 训练策略

采用预训练检测器作为基线(在大规模检测数据集上预训练),在 OVCOD-D 上微调。包含检测损失、覆盖率损失(区域弱对齐)和对比学习损失。

实验关键数据

主实验

方法 设置 AP 说明
YOLO-World-M 开集 基线在OVCOD-D上显著下降
SDDF 开集 56.4 OVCOD-D 基准上的新SOTA
SDDF 闭集 强表现 在传统COD任务上也有竞争力

LVIS 数据集上重叠类别的 AP 与 OVCOD-D 上的巨大差距验证了伪装目标对 OVOD 的严峻挑战。

消融实验

配置 AP 说明
基线(无SDDF) 显著更低 OVOD在伪装场景极弱
+ 子描述主成分融合 提升 文本去噪有效
+ 区域弱对齐 进一步提升 特异性引导生效
+ SF-GLU 56.4 动态聚焦贡献最大

关键发现

  • 开放词汇检测器在伪装目标上的性能显著下降,验证了OVCOD作为新研究方向的必要性
  • 文本描述的去噪(SVD分解)对性能提升至关重要,说明盲目使用多模态大模型生成的描述可能适得其反
  • 模型足够轻量,可在边缘设备部署

亮点与洞察

  • 新任务定义的价值:OVCOD 将开放词汇检测和伪装目标检测两个方向交叉,指出了现有 OVOD 方法的盲区
  • SVD 去噪文本嵌入:用矩阵分解来识别和去除文本嵌入中的噪声成分,比简单的 prompt engineering 更数学化、更可控
  • 弱对齐的实用性:在标注成本高或边界模糊的场景中,弱对齐是比像素级对齐更实际的选择

局限与展望

  • OVCOD-D 数据集规模有限,类别分布呈长尾
  • 依赖多模态大模型生成描述,描述质量受限于大模型能力
  • 对极端伪装(如完全融入背景的目标)可能仍然力不从心
  • 未来可探索视频中的伪装目标检测,利用运动线索

相关工作与启发

  • vs YOLO-World/YOLO-UniOW: 这些 OVOD 方法在常规目标上表现优异但对伪装目标无力,SDDF 通过特异性引导弥补了这一短板
  • vs 传统 COD (SINet/ZoomNet): 传统 COD 是闭集设置且需要像素级标注,OVCOD 更灵活
  • vs GLIP/Detic: 通用开放词汇方法缺乏对伪装场景的特殊处理

评分

  • 新颖性: ⭐⭐⭐⭐ 新任务定义+SVD去噪+弱对齐组合有新意
  • 实验充分度: ⭐⭐⭐⭐ 开集闭集都有测试,消融完整
  • 写作质量: ⭐⭐⭐ 内容较多,部分表述可以更简洁
  • 价值: ⭐⭐⭐⭐ 定义了有意义的新方向,基准数据集有长期价值

相关论文