Sim-DETR: Unlock DETR for Temporal Sentence Grounding¶
会议: ICCV 2025
arXiv: 2509.23867
代码: github.com/SooLab/Sim-DETR
领域: 目标检测 / Temporal Sentence Grounding
关键词: 时序语句定位, DETR, 查询冲突, 自注意力调整, 全局-局部桥接
一句话总结¶
系统分析了 DETR 在时序语句定位 (TSG) 任务中的异常行为根因——查询间冲突和查询内全局-局部矛盾,并提出两个简单修改(Query Grouping & Ranking + Global-Local Bridging)构成 Sim-DETR,解锁 DETR 在 TSG 任务的全部潜力。
研究背景与动机¶
TSG 任务要求根据自然语言查询在未裁剪视频中定位对应的时间段。当前主流方法采用 DETR 框架,使用可学习查询在解码器中预测时间段。
异常现象:在物体检测中,增加查询数量和解码层数通常能提升 DETR 性能。但在 TSG 任务中: - 增加查询数从 10 到 20:性能下降超过 2% - 增加解码层数:性能下降 1-2.5%
根因分析(本文核心贡献之一):
查询间冲突:TSG 中多个目标片段共享相同语言语义(如同一句话对应的多个事件),导致对应查询高度相似。在一对一匹配中,同一查询可能在不同解码层与不同目标段匹配("随机匹配"现象),跨层匹配一致性极低。
查询内冲突:每个查询需同时承担两个角色——(a) 编码片段的全局语义以进行匹配,(b) 解码局部边界以精确定位。这两个目标存在内在矛盾:关注全局语义还是局部边界?实验发现,高全局匹配分数并不保证精确局部定位。
方法详解¶
整体框架¶
Sim-DETR 在标准 DETR-based TSG 架构上做了两个"微小但关键"的解码器修改: - 特征提取:CLIP [CLS] + SlowFast 拼接 - 多模态编码器:视频-语言交叉注意力融合 - 解码器:添加 QGR 和 GLB 模块
关键设计¶
-
Query Grouping and Ranking (QGR):
-
查询分组:基于预测时间段的 L2 距离进行软分组,距离近的查询被视为可能对应同一目标段 \(\mathcal{S}^{intra}_{i,j} = \|b_i - b_j\|_2\) 使用 L2 而非 L1 距离:当两段接近时(归一化距离 ≤1),L2 衰减更快,对微小差异施加更小惩罚
-
查询排序:引入 IoU 预测头,结合分类置信度和 IoU 预测进行排序 \(R_{rank}(q_i, q_j) = \begin{cases} +1 & \mathcal{P}^{cls}_i \circ \mathcal{P}^{IoU}_i \geq \mathcal{P}^{cls}_j \circ \mathcal{P}^{IoU}_j \\ -1 & \text{otherwise} \end{cases}\)
-
自注意力调整:将分组和排序信息融入自注意力权重 \(\mathcal{S}^{attn} = \text{sigmoid}(\text{MLP}(\mathcal{S}^{intra} \circ \mathcal{R}_{rank}))\) 高值鼓励高质量查询从同组相似查询中聚合信息
- 设计动机:让不可区分的查询关注不同上下文,减少相似性,使最合适的查询从相关查询中获取信息
-
-
Global-Local Bridging (GLB):
- 引入查询到帧的匹配损失,强化查询与段内每帧的对齐
- 计算查询与所有帧的语义相似度: \(z = \text{sigmoid}(\tau \cdot \cos(q_i, \hat{\mathcal{T}}))\)
- 损失函数最大化段内帧相似度、最小化段外帧相似度: \(\mathcal{L}_{bridge} = \lambda_{bridge} \frac{-\sum_j z_j \mathbb{I}[b^{gt}_i]_j}{\sum_j z_j(1-\mathbb{I}[b^{gt}_i]_j) + \sum_j \mathbb{I}[b^{gt}_i]_j}\) 其中 \(\tau\) 为可学习缩放系数
- 设计动机:完整的段内帧序列(从起点到终点)作为桥梁连接全局语义和局部边界
-
IoU 预测头:
- 辅助评估定位精度,与分类分数联合用于查询排序
- 解决"高置信度≠精确定位"的问题
- 设计动机:仅用分类分数排序在 TSG 中无效(与物体检测不同),需要局部定位信号
损失函数 / 训练策略¶
- \(\mathcal{L}_{MD}\):Moment DETR 标准损失(L1 + gIoU + 分类 + 显著性损失)
- \(\mathcal{L}_{bridge}\):全局-局部桥接损失
- \(\mathcal{L}_{iou}\):IoU 预测头损失
- 训练 200 epochs,单卡 A40,AdamW lr=1e-4,6 层解码器
实验关键数据¶
主实验¶
QVHighlights 测试集:
| 方法 | R1@0.5 | R1@0.7 | mAP@0.5 | mAP@0.75 | mAP Avg |
|---|---|---|---|---|---|
| M-DETR | 52.89 | 33.02 | 54.82 | 29.40 | 30.73 |
| QD-DETR | 62.40 | 44.98 | 62.52 | 39.88 | 39.86 |
| TR-DETR | 64.66 | 48.96 | 63.98 | 43.73 | 42.62 |
| BAM-DETR | 62.71 | 48.64 | 64.57 | 46.33 | 45.36 |
| CG-DETR | 65.43 | 48.38 | 64.51 | 42.77 | 42.86 |
| Sim-DETR | 67.64 | 50.91 | 67.81 | 47.59 | 46.93 |
Charades-STA / TACoS:
| 数据集 | 方法 | R1@0.5 | R1@0.7 | mIoU |
|---|---|---|---|---|
| TACoS | CG-DETR | 39.61 | 22.23 | 36.48 |
| TACoS | Sim-DETR | 42.79 | 26.82 | 39.44 |
| Charades | SpikeMba | 59.65 | 36.12 | 51.74 |
| Charades | Sim-DETR | 61.34 | 39.62 | 52.56 |
消融实验¶
组件消融(QVHighlights val):
| 配置 | R1@0.5 | R1@0.7 | mAP Avg |
|---|---|---|---|
| Baseline (TR-DETR) | 65.48 | 50.84 | 44.97 |
| + \(\mathcal{L}_{iou}\) | 66.58 | 51.94 | 45.22 |
| + QGR | 68.77 | 52.26 | 47.03 |
| + GLB | 67.16 | 52.77 | 48.17 |
| + QGR + GLB | 69.48 | 54.06 | 49.50 |
冲突度量消融:
| Inner Relevance | Outer Global | Outer Local | mAP Avg |
|---|---|---|---|
| span border dist | confidence | IoU pred | 49.50 |
| center dist | confidence | IoU pred | 48.59 |
| span IoU | confidence | IoU pred | 48.94 |
| span border dist | w/o | IoU pred | 48.93 |
| span border dist | confidence | w/o | 48.66 |
关键发现¶
- QGR 有效区分查询:分析显示 Sim-DETR 成功区分了段内和段间查询的相似度分布,减少了查询在不同目标段间的"振荡"
- 跨层匹配一致性显著提升:QGR 使连续解码层间的查询-段匹配一致性大幅提高
- GLB 对齐全局语义与局部定位:引入 GLB 后查询对段内帧的注意力更集中,不再分散到多个目标段
- 异常现象消除:增加查询数和解码层不再导致性能下降,反而有轻微提升
- 收敛加速:消除异常后训练收敛速度显著加快
- L2 距离优于 L1/IoU:边界距离优于中心距离和 span IoU 作为查询分组依据
亮点与洞察¶
- 诊断驱动的方法设计:通过系统性的现象观察和根因分析(3个investigation section),然后针对性设计解决方案
- 揭示了 TSG 与物体检测的本质区别:多个目标段共享语言语义
- 极简修改、显著提升:仅两处解码器修改即全面超越所有 SOTA
- 查询排序结合分类+IoU的设计:针对性解决"高置信度≠精确定位"的问题
- 正副作用分析完备:不仅展示性能提升,还验证了异常消除和收敛加速
局限与展望¶
- 查询分组基于预测 span 距离,在训练初期预测不准时可能影响分组质量
- GLB 的帧级对齐使用简单的余弦相似度,更复杂的对齐方式可能进一步提升
- 仅在视频时序定位任务上验证,未探索在其他 DETR-based 任务中的推广性
- IoU 预测头增加了额外参数和计算,在资源受限场景需考虑
相关工作与启发¶
- EASE-DETR 的查询排序策略启发了 QGR,但直接用预测分数排序在 TSG 中无效
- Moment DETR 的基础损失设计为 TSG 提供了标准框架
- TSG 中"语义相似但位置不同的目标段"的分析可推广到类似的多实例检测场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 诊断性分析极为深入,揭示了 DETR 应用于 TSG 的根本问题
- 实验充分度: ⭐⭐⭐⭐⭐ 三个基准全面超越,多种 backbone、详尽消融、可视化分析
- 写作质量: ⭐⭐⭐⭐⭐ "先诊断后治疗"的叙事结构非常清晰,分析与验证紧密结合
- 价值: ⭐⭐⭐⭐⭐ 为 DETR-based TSG 提供了简洁有效的强基线,具有广泛的指导意义
相关论文¶
- [ECCV 2024] BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos
- [ICCV 2025] EvRT-DETR: Latent Space Adaptation of Image Detectors for Event-based Vision
- [ICCV 2025] Sparse-Dense Side-Tuner for Efficient Video Temporal Grounding
- [CVPR 2025] MI-DETR: An Object Detection Model with Multi-time Inquiries Mechanism
- [CVPR 2025] Mr. DETR++: Instructive Multi-Route Training for Detection Transformers with MoE