跳转至

T-Rex-Omni: Integrating Negative Visual Prompt in Generic Object Detection

会议: AAAI 2026
arXiv: 2511.08997
代码: 无(基于T-Rex2架构)
领域: 目标检测
关键词: 开放集检测, 负视觉提示, 长尾识别, 视觉提示, 零样本检测

一句话总结

提出T-Rex-Omni框架,首次将负视觉提示(negative visual prompts)系统性地引入开放集目标检测,通过训练免费的NNC模块和NNH损失,显著缩小了视觉提示和文本提示检测方法之间的性能差距,在长尾场景中表现尤为突出(LVIS-minival APr达到51.2)。

研究背景与动机

开放集目标检测的演进

目标检测从闭集(预定义类别)发展到开放集(通过用户提示指定目标),提示方式包括: - 文本提示:如"一张马芬蛋糕的照片",利用CLIP/BERT的语义理解 - 视觉提示:给出目标的参考图像或框选区域,更直观

核心问题:正提示的脆弱性

现有开放集检测器都依赖"正提示"(positive-only),即只告诉模型要检测什么,但不告诉模型要避免什么。这带来一个根本性缺陷:

面对视觉相似但语义不同的干扰物时极易失败。 经典例子就是吉娃娃和马芬蛋糕——它们外观极其相似,如果只靠正提示指定"吉娃娃",检测器可能会将马芬蛋糕也检测为吉娃娃。

长尾分布场景下这个问题更加严重:稀有类别的训练数据稀少,模型对这些类别的辨别能力更弱。

研究问题

负视觉提示能否让模型主动排除困难负样本,同时不损害对真正正样本的检测能力?

方法详解

整体框架

T-Rex-Omni基于T-Rex2架构构建,去除了文本提示分支,引入三个核心创新:

  1. 统一的正负视觉提示编码器:联合处理正和负视觉提示
  2. NNC模块(Negating Negative Computing):训练免费的概率校准
  3. NNH损失(Negating Negative Hinge):嵌入空间中的判别性间隔约束

保留T-Rex2的图像编码器和DETR风格解码器。

关键设计

1. 正负视觉提示编码器:从坐标空间到嵌入空间的统一映射

视觉提示生成: - 正提示:对GT框进行轻微变换(缩放/平移范围 \([0, 0.3]\)),保持语义有效性 - 负提示:对GT框进行强变换(缩放范围 \([0.7, 1.0]\)),生成K个负提示 - 这种策略增强了提示对空间和尺度变化的鲁棒性

编码过程: - 初始化可学习查询 \(Q_P \in \mathbb{R}^{1 \times D}\)\(Q_N \in \mathbb{R}^{K \times D}\) - 通过多尺度可变形交叉注意力处理:

\[Q_P' = \text{MSDeformAttn}(Q_P, p_c, F)$$ $$Q_N' = \text{MSDeformAttn}(Q_N, n_c, F)\]
  • 经自注意力和FFN得到最终的正嵌入 \(V_P\) 和负嵌入 \(V_N\)

跨图像检测能力:通过确保每个训练batch至少包含一个共享类别,计算共享类别的正提示平均嵌入 \(V_P''\),实现跨图像传播。对负提示嵌入,选择与平均正嵌入最相似的Top-K个。

三种灵活推理模式: - 用户指定模式:用户明确提供正、负样本 - 自动建议模式:系统根据用户正提示自动生成负提示(默认评估模式) - 仅正模式:兼容传统正提示工作流

2. NNC模块(Negating Negative Computing):训练免费的负响应抑制

核心思路:在概率计算阶段动态抑制负响应,无需额外训练。

给定DETR解码器输出的 \(N_q\) 个检测查询 \(Q\),计算正相似度和负相似度:

\[S_P, S_{N,i} = Q \times (V_P'')^T, \quad Q \times (V_{N,i}'')^T\]

通过从正相似度中减去加权的最大负相似度,再通过Sigmoid转换为概率:

\[Prob = \sigma(S_P - B \cdot \beta \cdot \max_{i=1,...,K}(S_{N,i}))\]

其中 \(\beta \in (0, 1)\) 控制负样本的影响强度(最优值0.3),\(B \sim \text{Bernoulli}(0.5)\) 是随机模式切换器,训练时随机切换正负联合与仅正模式以确保推理兼容性。

关键优势:作为即插即用模块,无需微调就能带来+3.0 AP(COCO-val)和+3.2 AP(LVIS-minival)的提升。

3. NNH损失(Negating Negative Hinge Loss):嵌入空间的判别性间隔

为增强正负嵌入之间的区分度,NNH在嵌入空间中强制执行间隔约束:

\[\mathcal{L}_{Hinge} = \sum_{i=1,...,K} \text{Max}(0, S_{N,i} - S_P + \eta) / K\]

其中 \(\eta > 0\) 是预设间隔(最优值0.3),确保正相似度至少比任何负相似度高出 \(\eta\)。Hinge形式只惩罚违反间隔条件的情况,聚焦困难负样本。

损失函数 / 训练策略

总损失函数

\[\mathcal{L}_{total} = \mathcal{L}_{cls} + \mathcal{L}_{Hinge} + \mathcal{L}_{L1} + \mathcal{L}_{GIoU} + \mathcal{L}_{DN}\]

包括Focal分类损失、NNH铰链损失、L1和GIoU回归损失、DINO的去噪训练损失。

训练策略: - "当前图像提示,跨图像检测"策略(不同于T-Rex2的"当前图像提示,当前图像检测") - 每个batch确保至少一个共享类别,增强跨图像一致性 - 使用AdamW优化器,主干 \(10^{-5}\),其他部分 \(10^{-4}\) - 在Objects365上微调,8×A100 GPU

实验关键数据

主实验

零样本通用目标检测(Table 1,Swin-T骨干)

方法 提示类型 COCO-val AP LVIS-minival AP LVIS APr ODinW APavg Roboflow APavg
T-Rex2 文本 45.8 42.8 37.4 18.0 8.2
T-Rex2 视觉 38.8 37.4 29.9 23.6 17.4
T-Rex-Omni 视觉 43.6 43.0 37.0 25.2 18.9

Swin-L骨干

方法 提示类型 COCO-val AP LVIS-val AP LVIS-val APr ODinW APavg
T-Rex2 文本 52.2 45.8 42.7 22.0
T-Rex2 视觉 46.5 45.3 43.8 27.8
LLMDet 文本 - 42.0 31.6 -
T-Rex-Omni 视觉 50.7 47.8 45.1 29.6

T-Rex-Omni(Swin-L)甚至在LVIS-val上超越了文本提示方法T-Rex2 +2.0 AP。

消融实验

NNC和NNH的贡献(Table 2)

NNC NNH 微调 COCO AP LVIS AP LVIS APr
38.8 37.4 29.9
41.8(+3.0) 40.6(+3.2) 33.3(+3.4)
42.9(+4.1) 41.4(+4.0) 35.1(+5.2)
43.6(+4.8) 43.0(+5.6) 37.0(+7.1)

关键超参数: - NNC的 \(\beta\):最优值0.3,过高(≥0.5)或过低(0.0)都会降低性能 - NNH的 \(\eta\):最优值0.3,中等间隔效果最好 - 负提示数量:3个最优,5个出现边际递减 - 正提示数量:1个最优(更多反而引入噪声)

关键发现

  1. NNC是即插即用的性能提升器:无需任何训练就能在COCO上提升+3.0 AP
  2. 负提示对长尾场景提升最大:LVIS稀有类别从29.9 APr提升到37.0 APr(+23.8%相对提升)
  3. 随机模式切换训练优于固定模式\(B \sim \text{Bernoulli}(0.5)\) 的训练方式使得模型在两种推理模式下都更鲁棒
  4. 一个高质量正提示优于多个:正提示数量增加会引入噪声,降低性能
  5. 视觉-文本提示差距被显著缩小:COCO上视觉提示与文本提示差距从7.0缩小到2.2

亮点与洞察

  1. 范式创新:首次系统性地将负视觉提示引入开放集检测,这是一个被长期忽视的维度
  2. 即插即用设计:NNC模块无需训练就能带来显著提升,工程实用性极强
  3. 多模式推理:支持用户指定/自动建议/仅正三种模式,灵活适应不同场景需求
  4. 在长尾场景的突破性表现:51.2 APr(LVIS-minival)远超之前的方法,说明负提示对稀有类别的区分尤为关键
  5. 视觉提示超越文本提示:在LVIS-val上,纯视觉提示的T-Rex-Omni超越了文本提示方法,这是令人振奋的结果

局限与展望

  1. 计数任务上略有退化:在FSC147上MAE为13.76,低于T-Rex的8.72,说明负提示可能对密集小目标计数有干扰
  2. 负提示的自动化水平:自动建议模式依赖简单的几何变换生成负提示,更智能的负样本挖掘策略值得探索
  3. 缺少文本+视觉联合的实验:虽然去除了文本分支,但正+负视觉提示与文本描述的结合可能更强
  4. 真负样本的获取:实际部署中用户可能不清楚哪些是有效的负样本

相关工作与启发

  • T-Rex2(Jiang et al. 2024):T-Rex-Omni的基础架构,支持文本和视觉提示
  • Focal Loss(Lin et al. 2017):在训练时通过上采权重处理困难负样本的经典方法
  • NP-RepMet:联合优化正负原型进行少样本检测
  • UNP:通过梯度调制隔离混淆负样本

启发:在少样本/开放集场景中,"告诉模型什么不是目标"与"告诉模型什么是目标"同样重要。这种思想可以推广到分割、跟踪等其他视觉任务。

评分

  • 新颖性: ⭐⭐⭐⭐⭐(负视觉提示的系统整合是全新方向)
  • 实验充分度: ⭐⭐⭐⭐⭐(4个基准、多骨干、全面消融、超参数敏感性分析)
  • 写作质量: ⭐⭐⭐⭐⭐(动机清晰、方法描述严谨、实验分析深入)
  • 价值: ⭐⭐⭐⭐⭐(对开放集检测领域有范式级贡献,实践价值高)

相关论文