跳转至

TubeRMC: Tube-conditioned Reconstruction with Mutual Constraints for Weakly-supervised Spatio-Temporal Video Grounding

会议: AAAI 2026
arXiv: 2511.10241
代码: 无
领域: 目标检测
关键词: 弱监督时空视频定位, Tube重建, 视觉语言对齐, 互约束学习, STVG

一句话总结

提出 TubeRMC 框架,利用文本条件化的候选 tube 生成 + 从时间/空间/时空三个维度进行 tube 条件化重建,并引入空间-时间互约束来增强弱监督时空视频定位性能。

研究背景与动机

时空视频定位(STVG) 旨在根据语言查询,在未裁剪视频中定位一个时空 tube(即一系列在指定时间区间内的边界框序列)。这是一个极具挑战性的任务,涉及复杂的视觉-语言理解和时空推理。

现有的全监督方法(如 TubeDETR)依赖昂贵的 tube-文本标注,成本极高。为降低标注需求,弱监督 STVG(WSTVG)方法仅使用视频-文本对进行训练,无需边界框或时间标注。

现有弱监督方法的核心问题

后融合范式的局限:WINNER、VCMA 等方法采用"检测后匹配"流程——用单模态检测器(如 Faster-RCNN)生成 tube 提案,再与文本匹配。tube 的生成完全独立于文本描述,导致两个关键问题: - 目标识别失败:检测器无法感知文本中描述的目标 - 跟踪不一致:跨帧的目标识别不稳定

直接拼接帧级结果不可行:虽然预训练视觉定位模型(如 MDETR)可以捕获文本条件化的目标定位,但简单拼接帧级结果来形成时空 tube 效果不佳,因为跨帧的目标识别可能不一致,且缺乏时空理解

现有重建方法的不足:已有的弱监督视频时间定位方法(如 CNM、Kim2024)仅关注时间重建,忽略了空间信息与文本之间的对应关系

核心洞察:与目标事件匹配的 tube 应该能够正确重建查询句子中被掩码的关键短语。如图1(b)所示,正确的 tube 能够重建"white man"和"sits down"等关键词。

方法详解

整体框架

TubeRMC 框架包含三个层面:

  1. 文本条件化 tube 生成:使用预训练视觉定位模型(MDETR)提取帧级跨模态表示和空间定位结果
  2. Tube 条件化重建学习:从时间、空间、时空三个维度进行重建,全面捕获 tube-文本对应关系
  3. 互约束学习:通过时间-空间双向约束增强提案质量

关键设计

1. 模型架构

静态跨模态提取:使用预训练 MDETR(ResNet-101 + Roberta-base),对每帧提取跨模态表示和定位结果。对于每帧,按主语 token 的置信度排序所有框,取最高分框作为该帧预测,拼接形成边界框 tube \(B \in \mathbb{R}^{T \times 4}\) 和置信度向量 \(S \in \mathbb{R}^{T \times 1}\)

时空建模:将跨模态特征送入 TimesFormer 获得跨模态特征 \(F_t \in \mathbb{R}^{T \times (H \times W + L) \times d}\) 和全局帧特征 \(F_g \in \mathbb{R}^{T \times d}\)。然后分别送入: - Spatial Boxes Refiner:通过跨注意力建模帧间上下文关系,预测偏移量来精调 MDETR 的输出 - Temporal Proposals Generator:使用 K 个可学习查询在时间解码器中建模时间上下文 - Spatio-Temporal Decoder:整合空间和时间信息进行事件级预测

2. Tube 条件化重建学习(核心创新)

不同于仅使用时间重建的方法,本文设计了 Tube-conditioned Reconstructor (TR),同时以时间和空间掩码作为输入。

高斯掩码表示:为实现反向传播,将时间区间、空间框、时空 tube 转化为高斯分布: - 1D 高斯 → 时间注意力掩码 \(M_t \in \mathbb{R}^T\) - 2D 高斯 → 空间注意力掩码 \(M_b \in \mathbb{R}^{HW}\) - 3D 高斯 → 时空掩码 \(T \times HW\)

TR 架构:包含 Tube-conditioned Encoder(6层)和 Masked-text Reconstructor: - 编码器含局部分支(关注局部时空上下文)和全局分支(补充全局时间信息) - Mask-Attention 机制:\(M\text{-}att(Q,K,V,M) = (\text{softmax}(\frac{QK^T}{\sqrt{d}}) \bigotimes M) V\),使编码器聚焦于掩码对应的视觉区域

三种重建策略: - 时间重建:掩码谓词及相关名词(运动信息),使用 1D 高斯时间掩码 - 空间重建:掩码主语名词和形容词(外观信息),使用 2D 高斯空间掩码 - 时空重建:随机掩码词汇(动词/名词/形容词概率更高),使用 3D 高斯掩码

3. 互约束学习

空间到时间约束(space-to-time):利用空间框的置信度分数引导时间提案生成。选择 Top-K 高分帧作为正提案的时间中心点,最低分帧作为负提案。损失函数最小化正/负提案间的重叠。

时间到空间约束(time-to-space):确保在同一场景内,相邻帧的目标保持空间连续性。对每个时间提案内相邻帧的预测框,惩罚 IoU 低于阈值的情况。

损失函数 / 训练策略

总损失:\(L_{total} = L_{rec} + L_{ipc} + L_{ivc} + L_{mc}\)

  • 重建损失 \(L_{rec}\):三种重建的交叉熵损失之和
  • 提案间对比损失 \(L_{ipc}\):确保正提案的重建损失低于负提案(含 margin)
  • 视频内对比损失 \(L_{ivc}\):时空重建的正样本 vs 硬/易负样本(反转时间掩码、均匀掩码)
  • 互约束损失 \(L_{mc}\):空间到时间 + 时间到空间约束

训练参数:K=4(HCSTVG/VidSTG),时空建模 3 层 transformer,TR 使用 6 层,margin 参数 β₁=0.5, β₂=0.7, β₃=0.5, β₄=0.7。

实验关键数据

主实验

数据集 指标 TubeRMC VCMA (前SOTA) 提升
HCSTVG-v1 m_vIoU 19.38 14.64 +4.74
HCSTVG-v1 vIoU@0.3 23.88 18.60 +5.28
HCSTVG-v2 m_vIoU 20.64 - -
VidSTG-Decl m_vIoU 15.93 14.45 +1.48
VidSTG-Decl vIoU@0.3 25.16 18.57 +6.59
VidSTG-Inter m_vIoU 13.47 13.25 +0.22

与 MDETR 基线对比(HCSTVG-v2):TubeRMC 超过 MDETR-Zero 8.43%,超过 MDETR+CPL 5.55%。

消融实验

重建策略消融(HCSTVG-v1):

空间 时间 时空 m_vIoU vIoU@0.3 说明
14.91 14.87 无重建基线
15.24 14.74 +空间
17.59 20.25 +时间(+2.68重要)
18.12 20.43 空间+时间互补
19.38 23.88 全部策略最优

互约束消融

s-to-t t-to-s m_vIoU m_tIoU m_sIoU
15.87 26.69 59.83
17.65 29.04 59.95
17.07 27.38 60.13
19.38 30.94 61.67

视觉定位模型替换:使用 G-DINO(Swin-B) 可将 m_vIoU 提升至 21.15%,但默认使用 MDETR 以平衡速度与性能。

关键发现

  1. 时间重建带来最大单项提升(+2.68 m_vIoU),凸显时间建模在 WSTVG 中的重要性
  2. 三种重建策略互补,组合使用效果最佳
  3. 空间到时间约束主要提升 m_tIoU(+2.35/+3.56),时间到空间约束主要提升 m_sIoU
  4. 更强的视觉定位模型(G-DINO-Swin-B)可进一步提升性能

亮点与洞察

  1. 三维重建范式:首次从 1D/2D/3D 三个维度进行 tube-文本对应关系学习,思路清晰优雅
  2. 互约束机制:利用空间信息引导时间提案生成,时间提案约束空间连续性,形成良性循环
  3. 可插拔视觉定位模型:框架对视觉定位模型不敏感,可随模型升级获得收益
  4. 重建即理解:通过"能否重建掩码文本"来评估 tube-文本匹配质量,是一种优雅的弱监督信号

局限与展望

  1. 在严重视角变化和遮挡情况下,MDETR 可能错误分配边界框给相似动作的其他人(如可视化案例第3行)
  2. 性能仍依赖于视觉定位模型的质量,当 MDETR 预训练语料与目标数据集差异大时(如 VidSTG Interrogative),效果受限
  3. 可引入跟踪算法生成更高质量的 tube 提案
  4. 3D 高斯掩码参数的自动学习值得探索

相关工作与启发

  • 重建思路源自弱监督视频时间定位(WVTG),本文将其从 1D 拓展到 2D 和 3D
  • MDETR/G-DINO等视觉定位模型为弱监督方法提供了更强的初始化
  • 互约束思想可推广到其他需要空间-时间协同的任务

评分

  • 新颖性: ⭐⭐⭐⭐ — 三维重建和互约束机制有新意
  • 实验充分度: ⭐⭐⭐⭐⭐ — 消融充分,四个数据集,多种设置
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,公式完整
  • 价值: ⭐⭐⭐⭐ — 推进了弱监督 STVG 的研究前沿

相关论文