TubeRMC: Tube-conditioned Reconstruction with Mutual Constraints for Weakly-supervised Spatio-Temporal Video Grounding¶
会议: AAAI 2026
arXiv: 2511.10241
代码: 无
领域: 目标检测
关键词: 弱监督时空视频定位, Tube重建, 视觉语言对齐, 互约束学习, STVG
一句话总结¶
提出 TubeRMC 框架,利用文本条件化的候选 tube 生成 + 从时间/空间/时空三个维度进行 tube 条件化重建,并引入空间-时间互约束来增强弱监督时空视频定位性能。
研究背景与动机¶
时空视频定位(STVG) 旨在根据语言查询,在未裁剪视频中定位一个时空 tube(即一系列在指定时间区间内的边界框序列)。这是一个极具挑战性的任务,涉及复杂的视觉-语言理解和时空推理。
现有的全监督方法(如 TubeDETR)依赖昂贵的 tube-文本标注,成本极高。为降低标注需求,弱监督 STVG(WSTVG)方法仅使用视频-文本对进行训练,无需边界框或时间标注。
现有弱监督方法的核心问题:
后融合范式的局限:WINNER、VCMA 等方法采用"检测后匹配"流程——用单模态检测器(如 Faster-RCNN)生成 tube 提案,再与文本匹配。tube 的生成完全独立于文本描述,导致两个关键问题: - 目标识别失败:检测器无法感知文本中描述的目标 - 跟踪不一致:跨帧的目标识别不稳定
直接拼接帧级结果不可行:虽然预训练视觉定位模型(如 MDETR)可以捕获文本条件化的目标定位,但简单拼接帧级结果来形成时空 tube 效果不佳,因为跨帧的目标识别可能不一致,且缺乏时空理解
现有重建方法的不足:已有的弱监督视频时间定位方法(如 CNM、Kim2024)仅关注时间重建,忽略了空间信息与文本之间的对应关系
核心洞察:与目标事件匹配的 tube 应该能够正确重建查询句子中被掩码的关键短语。如图1(b)所示,正确的 tube 能够重建"white man"和"sits down"等关键词。
方法详解¶
整体框架¶
TubeRMC 框架包含三个层面:
- 文本条件化 tube 生成:使用预训练视觉定位模型(MDETR)提取帧级跨模态表示和空间定位结果
- Tube 条件化重建学习:从时间、空间、时空三个维度进行重建,全面捕获 tube-文本对应关系
- 互约束学习:通过时间-空间双向约束增强提案质量
关键设计¶
1. 模型架构¶
静态跨模态提取:使用预训练 MDETR(ResNet-101 + Roberta-base),对每帧提取跨模态表示和定位结果。对于每帧,按主语 token 的置信度排序所有框,取最高分框作为该帧预测,拼接形成边界框 tube \(B \in \mathbb{R}^{T \times 4}\) 和置信度向量 \(S \in \mathbb{R}^{T \times 1}\)。
时空建模:将跨模态特征送入 TimesFormer 获得跨模态特征 \(F_t \in \mathbb{R}^{T \times (H \times W + L) \times d}\) 和全局帧特征 \(F_g \in \mathbb{R}^{T \times d}\)。然后分别送入: - Spatial Boxes Refiner:通过跨注意力建模帧间上下文关系,预测偏移量来精调 MDETR 的输出 - Temporal Proposals Generator:使用 K 个可学习查询在时间解码器中建模时间上下文 - Spatio-Temporal Decoder:整合空间和时间信息进行事件级预测
2. Tube 条件化重建学习(核心创新)¶
不同于仅使用时间重建的方法,本文设计了 Tube-conditioned Reconstructor (TR),同时以时间和空间掩码作为输入。
高斯掩码表示:为实现反向传播,将时间区间、空间框、时空 tube 转化为高斯分布: - 1D 高斯 → 时间注意力掩码 \(M_t \in \mathbb{R}^T\) - 2D 高斯 → 空间注意力掩码 \(M_b \in \mathbb{R}^{HW}\) - 3D 高斯 → 时空掩码 \(T \times HW\)
TR 架构:包含 Tube-conditioned Encoder(6层)和 Masked-text Reconstructor: - 编码器含局部分支(关注局部时空上下文)和全局分支(补充全局时间信息) - Mask-Attention 机制:\(M\text{-}att(Q,K,V,M) = (\text{softmax}(\frac{QK^T}{\sqrt{d}}) \bigotimes M) V\),使编码器聚焦于掩码对应的视觉区域
三种重建策略: - 时间重建:掩码谓词及相关名词(运动信息),使用 1D 高斯时间掩码 - 空间重建:掩码主语名词和形容词(外观信息),使用 2D 高斯空间掩码 - 时空重建:随机掩码词汇(动词/名词/形容词概率更高),使用 3D 高斯掩码
3. 互约束学习¶
空间到时间约束(space-to-time):利用空间框的置信度分数引导时间提案生成。选择 Top-K 高分帧作为正提案的时间中心点,最低分帧作为负提案。损失函数最小化正/负提案间的重叠。
时间到空间约束(time-to-space):确保在同一场景内,相邻帧的目标保持空间连续性。对每个时间提案内相邻帧的预测框,惩罚 IoU 低于阈值的情况。
损失函数 / 训练策略¶
总损失:\(L_{total} = L_{rec} + L_{ipc} + L_{ivc} + L_{mc}\)
- 重建损失 \(L_{rec}\):三种重建的交叉熵损失之和
- 提案间对比损失 \(L_{ipc}\):确保正提案的重建损失低于负提案(含 margin)
- 视频内对比损失 \(L_{ivc}\):时空重建的正样本 vs 硬/易负样本(反转时间掩码、均匀掩码)
- 互约束损失 \(L_{mc}\):空间到时间 + 时间到空间约束
训练参数:K=4(HCSTVG/VidSTG),时空建模 3 层 transformer,TR 使用 6 层,margin 参数 β₁=0.5, β₂=0.7, β₃=0.5, β₄=0.7。
实验关键数据¶
主实验¶
| 数据集 | 指标 | TubeRMC | VCMA (前SOTA) | 提升 |
|---|---|---|---|---|
| HCSTVG-v1 | m_vIoU | 19.38 | 14.64 | +4.74 |
| HCSTVG-v1 | vIoU@0.3 | 23.88 | 18.60 | +5.28 |
| HCSTVG-v2 | m_vIoU | 20.64 | - | - |
| VidSTG-Decl | m_vIoU | 15.93 | 14.45 | +1.48 |
| VidSTG-Decl | vIoU@0.3 | 25.16 | 18.57 | +6.59 |
| VidSTG-Inter | m_vIoU | 13.47 | 13.25 | +0.22 |
与 MDETR 基线对比(HCSTVG-v2):TubeRMC 超过 MDETR-Zero 8.43%,超过 MDETR+CPL 5.55%。
消融实验¶
重建策略消融(HCSTVG-v1):
| 空间 | 时间 | 时空 | m_vIoU | vIoU@0.3 | 说明 |
|---|---|---|---|---|---|
| ✗ | ✗ | ✗ | 14.91 | 14.87 | 无重建基线 |
| ✓ | ✗ | ✗ | 15.24 | 14.74 | +空间 |
| ✗ | ✓ | ✗ | 17.59 | 20.25 | +时间(+2.68重要) |
| ✓ | ✓ | ✗ | 18.12 | 20.43 | 空间+时间互补 |
| ✓ | ✓ | ✓ | 19.38 | 23.88 | 全部策略最优 |
互约束消融:
| s-to-t | t-to-s | m_vIoU | m_tIoU | m_sIoU |
|---|---|---|---|---|
| ✗ | ✗ | 15.87 | 26.69 | 59.83 |
| ✓ | ✗ | 17.65 | 29.04 | 59.95 |
| ✗ | ✓ | 17.07 | 27.38 | 60.13 |
| ✓ | ✓ | 19.38 | 30.94 | 61.67 |
视觉定位模型替换:使用 G-DINO(Swin-B) 可将 m_vIoU 提升至 21.15%,但默认使用 MDETR 以平衡速度与性能。
关键发现¶
- 时间重建带来最大单项提升(+2.68 m_vIoU),凸显时间建模在 WSTVG 中的重要性
- 三种重建策略互补,组合使用效果最佳
- 空间到时间约束主要提升 m_tIoU(+2.35/+3.56),时间到空间约束主要提升 m_sIoU
- 更强的视觉定位模型(G-DINO-Swin-B)可进一步提升性能
亮点与洞察¶
- 三维重建范式:首次从 1D/2D/3D 三个维度进行 tube-文本对应关系学习,思路清晰优雅
- 互约束机制:利用空间信息引导时间提案生成,时间提案约束空间连续性,形成良性循环
- 可插拔视觉定位模型:框架对视觉定位模型不敏感,可随模型升级获得收益
- 重建即理解:通过"能否重建掩码文本"来评估 tube-文本匹配质量,是一种优雅的弱监督信号
局限与展望¶
- 在严重视角变化和遮挡情况下,MDETR 可能错误分配边界框给相似动作的其他人(如可视化案例第3行)
- 性能仍依赖于视觉定位模型的质量,当 MDETR 预训练语料与目标数据集差异大时(如 VidSTG Interrogative),效果受限
- 可引入跟踪算法生成更高质量的 tube 提案
- 3D 高斯掩码参数的自动学习值得探索
相关工作与启发¶
- 重建思路源自弱监督视频时间定位(WVTG),本文将其从 1D 拓展到 2D 和 3D
- MDETR/G-DINO等视觉定位模型为弱监督方法提供了更强的初始化
- 互约束思想可推广到其他需要空间-时间协同的任务
评分¶
- 新颖性: ⭐⭐⭐⭐ — 三维重建和互约束机制有新意
- 实验充分度: ⭐⭐⭐⭐⭐ — 消融充分,四个数据集,多种设置
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式完整
- 价值: ⭐⭐⭐⭐ — 推进了弱监督 STVG 的研究前沿
相关论文¶
- [CVPR 2026] HieraMamba: Video Temporal Grounding via Hierarchical Anchor-Mamba Pooling
- [AAAI 2026] Temporal Object-Aware Vision Transformer for Few-Shot Video Object Detection
- [ICCV 2025] Sparse-Dense Side-Tuner for Efficient Video Temporal Grounding
- [ICLR 2026] SPWOOD: Sparse Partial Weakly-Supervised Oriented Object Detection
- [AAAI 2026] Mitigating Error Accumulation in Co-Speech Motion Generation via Global Rotation Diffusion and Multi-Level Constraints