MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism¶
会议: CVPR 2025
arXiv: 2503.01463
代码: 待公开
领域: 目标检测
关键词: DETR, 并行解码器, 多次查询, 特征利用, 目标检测
一句话总结¶
MI-DETR 提出了并行多次查询(MI)机制替代传统 DETR 级联解码器架构,让 object queries 通过多个参数独立的 inquiry heads 并行地从图像特征中学习多模式信息,配合 U-like Feature Interaction(UFI),在 COCO 上以 ResNet-50 backbone 达到 52.7 AP,超越所有已有 DETR 变体。
研究背景与动机¶
-
领域现状:DETR-like 模型采用级联解码器架构,object queries 逐层询问图像特征以获取逐步精炼的信息。自 2020 年以来,各种 DETR 变体通过改进 query 初始化、注意力机制和匹配策略持续推动性能。
-
现有痛点:级联架构约束了 query 表示只能沿级联方向更新——下一层的表示直接取决于当前层,导致 object queries 只能学到相对有限的信息模式。深层解码器中过度精炼的信息可能是冗余甚至有害的。
-
核心矛盾:自然场景中的目标可能极小、严重遮挡或与背景混淆,需要充分利用图像特征来学习全面的信息。但级联架构的单一方向更新限制了特征利用的充分性。
-
本文目标 如何让 object queries 从图像特征中学习更全面、多模式的信息以提升检测性能。
-
切入角度:受传统 CNN 方法中并行架构增强特征利用的启发,提出让 queries 通过多个参数独立的分支并行查询图像特征。
-
核心 idea:用参数独立的并行 inquiry heads 替代级联的单次查询,让 object queries 学习多模式信息后融合,实现更充分的特征利用。
方法详解¶
整体框架¶
MI-DETR 保持标准 DETR 框架:backbone + 多层 transformer encoder 提取图像特征 \(E = \{E_0, ..., E_L\}\),MI decoder 利用图像特征适配检测任务,prediction head 预测目标位置和类别。核心创新在于用 MI decoder layers 替换传统 decoder layers,并引入 UFI 模块连接不同层级的 encoder 特征。
关键设计¶
-
Multi-time Inquiries(MI)机制:
- 功能:让 object queries 在每个 decoder layer 中通过多个并行的参数独立分支学习多模式信息
- 核心思路:每个 MI decoder layer 将输入 queries \(Q_{i-1}\) 送入 \(M\) 个独立的 inquiry heads(每个都是标准的 SA+CA+FFN),得到 \(M\) 组 queries \(\{Q_i^1, ..., Q_i^M\}\),然后通过 concatenation + linear 层融合为输出 \(Q_i = \text{Linear}(\text{Concat}(Q_i^1, ..., Q_i^M))\)。每个 inquiry head 都有自己的参数,学习到不同模式的信息。
- 设计动机:与参数共享的并行架构(如 Group-DETR 中 primary + auxiliary queries 共享同一 inquiry head)不同,参数独立使得各分支能真正学到不同模式的信息。实验验证参数共享是"伪并行",学到的信息模式相同。最优 inquiry head 数量为 4。
-
Lite Multi-time Inquiries(Lite-MI):
- 功能:MI 的轻量版本,在保持性能的同时减少参数
- 核心思路:不同 inquiry heads 共享 self-attention 层的参数,仅 cross-attention 和 FFN 保持独立。形式为 \(Q_i^k = \text{FFN}_i^k(\text{CrossAtt}_i^k(\text{SelfAtt}_i(Q_{i-1}), E_j))\)。
- 设计动机:self-attention 的主要功能是消除重复候选,且不涉及图像特征 \(E_j\),因此为每个 inquiry head 配置独立的 self-attention 可能是冗余的。Lite-MI 以极小的性能代价(50.1 vs 50.2 AP)换取了更少的参数。
-
U-like Feature Interaction(UFI):
- 功能:充分利用 encoder 各层的特征,而不是仅使用最后一层
- 核心思路:受 U-Net 启发,将第 \(j\) 层 encoder 特征与最后一层特征融合后,作为第 \(i\) 层 decoder 的 Key&Value,其中 \(j = L - i + 1\)。融合方式为 \(E_j = \text{linear}(\text{concat}(E_j, E_L))\)。这样浅层 decoder 使用深层 encoder 的抽象特征,深层 decoder 使用浅层 encoder 的详细特征。
- 设计动机:DETR 是经典的 encoder-decoder 架构,encoder 逐层从细节到抽象,decoder 逐层从抽象到细节。U-like 的跨层连接能同时利用低级和高级信息,类似 U-Net 的 skip connection。
损失函数 / 训练策略¶
沿用基线模型(DINO / Relation-DETR)的损失函数和训练策略。优化器为 AdamW,学习率 \(1 \times 10^{-4}\),weight decay \(1 \times 10^{-4}\)。支持 1x(12 epochs)和 2x(24 epochs)训练。
实验关键数据¶
主实验¶
COCO val2017(ResNet-50 backbone):
| 方法 | 会议 | Epochs | AP | AP_50 | AP_75 | AP_S | AP_M | AP_L |
|---|---|---|---|---|---|---|---|---|
| DINO | ICLR'23 | 12 | 49.0 | 66.6 | 53.5 | 32.0 | 52.3 | 63.0 |
| Relation-DETR | ECCV'24 | 12 | 51.7 | 69.1 | 56.3 | 36.1 | 55.6 | 66.1 |
| MI-DETR | - | 12 | 52.4 | 69.8 | 57.0 | 35.6 | 56.1 | 67.2 |
| Relation-DETR | ECCV'24 | 24 | 52.1 | 69.7 | 56.6 | 36.1 | 56.0 | 66.5 |
| MI-DETR | - | 24 | 52.7 | 70.4 | 57.2 | 36.7 | 56.7 | 66.7 |
Swin-L backbone(12 epochs):
| 方法 | AP | AP_50 | AP_S |
|---|---|---|---|
| Relation-DETR | 57.8 | 76.1 | 41.2 |
| MI-DETR | 58.2 | 76.5 | 42.5 |
消融实验¶
| ID | MI | Lite-MI | UFI | AP |
|---|---|---|---|---|
| #1 (baseline) | - | - | - | 49.0 |
| #2 | ✓ | 49.8 (+0.8) | ||
| #3 | ✓ | 49.6 (+0.6) | ||
| #4 | ✓ | 49.5 (+0.5) | ||
| #5 | ✓ | ✓ | 50.1 (+1.1) | |
| #6 | ✓ | ✓ | 50.2 (+1.2) |
Inquiry Head 数量影响:
| IHN | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| AP | 49.5 | 49.6 | 49.9 | 50.2 | 49.9 |
关键发现¶
- MI 贡献最大:单独使用 MI 就能带来 +0.8 AP 的提升,是三个组件中贡献最多的
- MI 可插拔到任意 DETR 变体:在 DINO 和 Relation-DETR 上分别获得 +1.2 AP 和 +0.7 AP 的一致提升,说明 MI 与已有的 one-to-many matching 等技术是正交的
- 4 个 inquiry heads 最优:过多的 heads(5个)反而性能下降,因为过多模式的信息可能相互干扰
- MI 加速收敛:MI+DINO 12 epochs 的结果(50.2 AP)已超过 DINO 24 epochs(50.4 AP),且 MI+Relation-DETR 12 epochs(52.4)已超过 Relation-DETR 24 epochs(52.1)
- 单个 inquiry head 不够:单独使用任一 head 的输出(约 41-42 AP)远低于基线,说明单一模式信息不完整,需要融合
亮点与洞察¶
- 参数独立 vs 参数共享的关键区分:论文清晰地论证了 Group-DETR 等方法的"参数共享并行"本质上是伪并行——共享参数使得不同分支学到相同信息模式。这个观察对理解并行架构的本质很有价值。
- 类比教学法的设计思路:将 decoder layer 类比为"学生向老师提问",多次查询即"多次提问获取不同角度的答案",直觉上非常清晰。
- 即插即用设计:MI 机制不改变基线模型的输入输出接口,可以直接插入任何 DETR-like 模型的 decoder 中。这种模块化设计使得方法的实用价值很高。
局限与展望¶
- 计算开销:多个 inquiry heads 会增加解码器的计算量,论文未详细分析推理速度和内存开销的权衡
- 仅在 COCO 上验证:缺少在其他数据集(LVIS、Objects365)上的实验验证,泛化性存疑
- UFI 的设计比较简单:仅用 linear 层融合不同层 encoder 特征,可能不是最优的跨层交互方式
- 未探索与其他最新技术的组合:如 DETR 联合训练策略、query denoising 等
- 改进思路:探索自适应的 inquiry head 数量选择;将 MI 扩展到 encoder 端;结合动态 query selection
相关工作与启发¶
- vs DINO [Zhang et al., ICLR'23]: DINO 是最具代表性的 DETR 变体,使用级联解码器。MI-DETR 直接在 DINO 上插入 MI,获得 +1.2 AP 提升,证明了特征利用的改进空间。
- vs Relation-DETR [ECCV'24]: 当前的 SOTA 模型,使用了 one-to-many matching 等技术。MI-DETR 在其基础上仍能获得 +0.6 AP 的提升,说明 MI 与已有优化技术正交。
- vs Group-DETR / H-DETR: 这些方法也引入了并行结构但是参数共享的伪并行,主要解决正样本不足的问题。MI-DETR 的参数独立并行解决的是特征利用不充分的问题,出发点和技术本质不同。
评分¶
- 新颖性: ⭐⭐⭐⭐ 并行多次查询的 idea 简洁有效,与伪并行的区分很清晰
- 实验充分度: ⭐⭐⭐⭐ 消融全面(组件、head数量、可插拔性),但仅在 COCO 上验证
- 写作质量: ⭐⭐⭐⭐⭐ 类比生动,逻辑严密,与相关工作的区分非常清晰
- 价值: ⭐⭐⭐⭐ 在竞争激烈的 DETR 领域取得新 SOTA,即插即用设计实用价值高
相关论文¶
- [CVPR 2025] Mr. DETR++: Instructive Multi-Route Training for Detection Transformers with MoE
- [CVPR 2025] Test-Time Backdoor Detection for Object Detection Models
- [NeurIPS 2025] Test-Time Adaptive Object Detection with Foundation Model
- [CVPR 2025] Efficient Test-Time Adaptive Object Detection via Sensitivity-Guided Pruning
- [CVPR 2025] MulSen-AD: Multi-Sensor Object Anomaly Detection