T-Rex-Omni: Integrating Negative Visual Prompt in Generic Object Detection¶

会议: AAAI 2026
arXiv: 2511.08997
代码: 无（基于T-Rex2架构）
领域: 目标检测
关键词: 开放集检测, 负视觉提示, 长尾识别, 视觉提示, 零样本检测

一句话总结¶

提出T-Rex-Omni框架，首次将负视觉提示（negative visual prompts）系统性地引入开放集目标检测，通过训练免费的NNC模块和NNH损失，显著缩小了视觉提示和文本提示检测方法之间的性能差距，在长尾场景中表现尤为突出（LVIS-minival APr达到51.2）。

研究背景与动机¶

开放集目标检测的演进¶

目标检测从闭集（预定义类别）发展到开放集（通过用户提示指定目标），提示方式包括： - 文本提示：如"一张马芬蛋糕的照片"，利用CLIP/BERT的语义理解 - 视觉提示：给出目标的参考图像或框选区域，更直观

核心问题：正提示的脆弱性¶

现有开放集检测器都依赖"正提示"（positive-only），即只告诉模型要检测什么，但不告诉模型要避免什么。这带来一个根本性缺陷：

面对视觉相似但语义不同的干扰物时极易失败。 经典例子就是吉娃娃和马芬蛋糕——它们外观极其相似，如果只靠正提示指定"吉娃娃"，检测器可能会将马芬蛋糕也检测为吉娃娃。

在长尾分布场景下这个问题更加严重：稀有类别的训练数据稀少，模型对这些类别的辨别能力更弱。

研究问题¶

负视觉提示能否让模型主动排除困难负样本，同时不损害对真正正样本的检测能力？

方法详解¶

整体框架¶

T-Rex-Omni基于T-Rex2架构构建，去除了文本提示分支，引入三个核心创新：

统一的正负视觉提示编码器：联合处理正和负视觉提示
NNC模块（Negating Negative Computing）：训练免费的概率校准
NNH损失（Negating Negative Hinge）：嵌入空间中的判别性间隔约束

保留T-Rex2的图像编码器和DETR风格解码器。

关键设计¶

1. 正负视觉提示编码器：从坐标空间到嵌入空间的统一映射¶

视觉提示生成： - 正提示：对GT框进行轻微变换（缩放/平移范围 $[0, 0.3]$），保持语义有效性 - 负提示：对GT框进行强变换（缩放范围 $[0.7, 1.0]$），生成K个负提示 - 这种策略增强了提示对空间和尺度变化的鲁棒性

编码过程： - 初始化可学习查询 $Q_P \in \mathbb{R}^{1 \times D}$ 和 $Q_N \in \mathbb{R}^{K \times D}$ - 通过多尺度可变形交叉注意力处理：

\[Q_P' = \text{MSDeformAttn}(Q_P, p_c, F)$$ $$Q_N' = \text{MSDeformAttn}(Q_N, n_c, F)\]

经自注意力和FFN得到最终的正嵌入 $V_P$ 和负嵌入 $V_N$

跨图像检测能力：通过确保每个训练batch至少包含一个共享类别，计算共享类别的正提示平均嵌入 $V_P''$，实现跨图像传播。对负提示嵌入，选择与平均正嵌入最相似的Top-K个。

三种灵活推理模式： - 用户指定模式：用户明确提供正、负样本 - 自动建议模式：系统根据用户正提示自动生成负提示（默认评估模式） - 仅正模式：兼容传统正提示工作流

2. NNC模块（Negating Negative Computing）：训练免费的负响应抑制¶

核心思路：在概率计算阶段动态抑制负响应，无需额外训练。

给定DETR解码器输出的 $N_q$ 个检测查询 $Q$，计算正相似度和负相似度：

\[S_P, S_{N,i} = Q \times (V_P'')^T, \quad Q \times (V_{N,i}'')^T\]

通过从正相似度中减去加权的最大负相似度，再通过Sigmoid转换为概率：

\[Prob = \sigma(S_P - B \cdot \beta \cdot \max_{i=1,...,K}(S_{N,i}))\]

其中 $\beta \in (0, 1)$ 控制负样本的影响强度（最优值0.3），$B \sim \text{Bernoulli}(0.5)$ 是随机模式切换器，训练时随机切换正负联合与仅正模式以确保推理兼容性。

关键优势：作为即插即用模块，无需微调就能带来+3.0 AP（COCO-val）和+3.2 AP（LVIS-minival）的提升。

3. NNH损失（Negating Negative Hinge Loss）：嵌入空间的判别性间隔¶

为增强正负嵌入之间的区分度，NNH在嵌入空间中强制执行间隔约束：

\[\mathcal{L}_{Hinge} = \sum_{i=1,...,K} \text{Max}(0, S_{N,i} - S_P + \eta) / K\]

其中 $\eta > 0$ 是预设间隔（最优值0.3），确保正相似度至少比任何负相似度高出 $\eta$。Hinge形式只惩罚违反间隔条件的情况，聚焦困难负样本。

损失函数 / 训练策略¶

总损失函数：

\[\mathcal{L}_{total} = \mathcal{L}_{cls} + \mathcal{L}_{Hinge} + \mathcal{L}_{L1} + \mathcal{L}_{GIoU} + \mathcal{L}_{DN}\]

包括Focal分类损失、NNH铰链损失、L1和GIoU回归损失、DINO的去噪训练损失。

训练策略： - "当前图像提示，跨图像检测"策略（不同于T-Rex2的"当前图像提示，当前图像检测"） - 每个batch确保至少一个共享类别，增强跨图像一致性 - 使用AdamW优化器，主干 $10^{-5}$，其他部分 $10^{-4}$ - 在Objects365上微调，8×A100 GPU

实验关键数据¶

主实验¶

零样本通用目标检测（Table 1，Swin-T骨干）：

方法	提示类型	COCO-val AP	LVIS-minival AP	LVIS APr	ODinW APavg	Roboflow APavg
T-Rex2	文本	45.8	42.8	37.4	18.0	8.2
T-Rex2	视觉	38.8	37.4	29.9	23.6	17.4
T-Rex-Omni	视觉	43.6	43.0	37.0	25.2	18.9

Swin-L骨干：

方法	提示类型	COCO-val AP	LVIS-val AP	LVIS-val APr	ODinW APavg
T-Rex2	文本	52.2	45.8	42.7	22.0
T-Rex2	视觉	46.5	45.3	43.8	27.8
LLMDet	文本	-	42.0	31.6	-
T-Rex-Omni	视觉	50.7	47.8	45.1	29.6

T-Rex-Omni（Swin-L）甚至在LVIS-val上超越了文本提示方法T-Rex2 +2.0 AP。

消融实验¶

NNC和NNH的贡献（Table 2）：

NNC	NNH	微调	COCO AP	LVIS AP	LVIS APr
✗	✗	✗	38.8	37.4	29.9
✓	✗	✗	41.8(+3.0)	40.6(+3.2)	33.3(+3.4)
✓	✗	✓	42.9(+4.1)	41.4(+4.0)	35.1(+5.2)
✓	✓	✓	43.6(+4.8)	43.0(+5.6)	37.0(+7.1)

关键超参数： - NNC的 $\beta$：最优值0.3，过高（≥0.5）或过低（0.0）都会降低性能 - NNH的 $\eta$：最优值0.3，中等间隔效果最好 - 负提示数量：3个最优，5个出现边际递减 - 正提示数量：1个最优（更多反而引入噪声）

关键发现¶

NNC是即插即用的性能提升器：无需任何训练就能在COCO上提升+3.0 AP
负提示对长尾场景提升最大：LVIS稀有类别从29.9 APr提升到37.0 APr（+23.8%相对提升）
随机模式切换训练优于固定模式：$B \sim \text{Bernoulli}(0.5)$ 的训练方式使得模型在两种推理模式下都更鲁棒
一个高质量正提示优于多个：正提示数量增加会引入噪声，降低性能
视觉-文本提示差距被显著缩小：COCO上视觉提示与文本提示差距从7.0缩小到2.2

亮点与洞察¶

范式创新：首次系统性地将负视觉提示引入开放集检测，这是一个被长期忽视的维度
即插即用设计：NNC模块无需训练就能带来显著提升，工程实用性极强
多模式推理：支持用户指定/自动建议/仅正三种模式，灵活适应不同场景需求
在长尾场景的突破性表现：51.2 APr（LVIS-minival）远超之前的方法，说明负提示对稀有类别的区分尤为关键
视觉提示超越文本提示：在LVIS-val上，纯视觉提示的T-Rex-Omni超越了文本提示方法，这是令人振奋的结果

局限与展望¶

计数任务上略有退化：在FSC147上MAE为13.76，低于T-Rex的8.72，说明负提示可能对密集小目标计数有干扰
负提示的自动化水平：自动建议模式依赖简单的几何变换生成负提示，更智能的负样本挖掘策略值得探索
缺少文本+视觉联合的实验：虽然去除了文本分支，但正+负视觉提示与文本描述的结合可能更强
真负样本的获取：实际部署中用户可能不清楚哪些是有效的负样本

评分¶

新颖性: ⭐⭐⭐⭐⭐（负视觉提示的系统整合是全新方向）
实验充分度: ⭐⭐⭐⭐⭐（4个基准、多骨干、全面消融、超参数敏感性分析）
写作质量: ⭐⭐⭐⭐⭐（动机清晰、方法描述严谨、实验分析深入）
价值: ⭐⭐⭐⭐⭐（对开放集检测领域有范式级贡献，实践价值高）