TubeRMC: Tube-conditioned Reconstruction with Mutual Constraints for Weakly-supervised Spatio-Temporal Video Grounding¶

会议: AAAI 2026
arXiv: 2511.10241
代码: 无
领域: 目标检测
关键词: 弱监督时空视频定位, Tube重建, 视觉语言对齐, 互约束学习, STVG

一句话总结¶

提出 TubeRMC 框架，利用文本条件化的候选 tube 生成 + 从时间/空间/时空三个维度进行 tube 条件化重建，并引入空间-时间互约束来增强弱监督时空视频定位性能。

研究背景与动机¶

时空视频定位（STVG） 旨在根据语言查询，在未裁剪视频中定位一个时空 tube（即一系列在指定时间区间内的边界框序列）。这是一个极具挑战性的任务，涉及复杂的视觉-语言理解和时空推理。

现有的全监督方法（如 TubeDETR）依赖昂贵的 tube-文本标注，成本极高。为降低标注需求，弱监督 STVG（WSTVG）方法仅使用视频-文本对进行训练，无需边界框或时间标注。

现有弱监督方法的核心问题：

后融合范式的局限：WINNER、VCMA 等方法采用"检测后匹配"流程——用单模态检测器（如 Faster-RCNN）生成 tube 提案，再与文本匹配。tube 的生成完全独立于文本描述，导致两个关键问题： - 目标识别失败：检测器无法感知文本中描述的目标 - 跟踪不一致：跨帧的目标识别不稳定

直接拼接帧级结果不可行：虽然预训练视觉定位模型（如 MDETR）可以捕获文本条件化的目标定位，但简单拼接帧级结果来形成时空 tube 效果不佳，因为跨帧的目标识别可能不一致，且缺乏时空理解

现有重建方法的不足：已有的弱监督视频时间定位方法（如 CNM、Kim2024）仅关注时间重建，忽略了空间信息与文本之间的对应关系

核心洞察：与目标事件匹配的 tube 应该能够正确重建查询句子中被掩码的关键短语。如图1(b)所示，正确的 tube 能够重建"white man"和"sits down"等关键词。

方法详解¶

整体框架¶

TubeRMC 框架包含三个层面：

文本条件化 tube 生成：使用预训练视觉定位模型（MDETR）提取帧级跨模态表示和空间定位结果
Tube 条件化重建学习：从时间、空间、时空三个维度进行重建，全面捕获 tube-文本对应关系
互约束学习：通过时间-空间双向约束增强提案质量

关键设计¶

1. 模型架构¶

静态跨模态提取：使用预训练 MDETR（ResNet-101 + Roberta-base），对每帧提取跨模态表示和定位结果。对于每帧，按主语 token 的置信度排序所有框，取最高分框作为该帧预测，拼接形成边界框 tube \(B \in \mathbb{R}^{T \times 4}\) 和置信度向量 \(S \in \mathbb{R}^{T \times 1}\)。

时空建模：将跨模态特征送入 TimesFormer 获得跨模态特征 \(F_t \in \mathbb{R}^{T \times (H \times W + L) \times d}\) 和全局帧特征 \(F_g \in \mathbb{R}^{T \times d}\)。然后分别送入： - Spatial Boxes Refiner：通过跨注意力建模帧间上下文关系，预测偏移量来精调 MDETR 的输出 - Temporal Proposals Generator：使用 K 个可学习查询在时间解码器中建模时间上下文 - Spatio-Temporal Decoder：整合空间和时间信息进行事件级预测

2. Tube 条件化重建学习（核心创新）¶

不同于仅使用时间重建的方法，本文设计了 Tube-conditioned Reconstructor (TR)，同时以时间和空间掩码作为输入。

高斯掩码表示：为实现反向传播，将时间区间、空间框、时空 tube 转化为高斯分布： - 1D 高斯 → 时间注意力掩码 \(M_t \in \mathbb{R}^T\) - 2D 高斯 → 空间注意力掩码 \(M_b \in \mathbb{R}^{HW}\) - 3D 高斯 → 时空掩码 \(T \times HW\)

TR 架构：包含 Tube-conditioned Encoder（6层）和 Masked-text Reconstructor： - 编码器含局部分支（关注局部时空上下文）和全局分支（补充全局时间信息） - Mask-Attention 机制：\(M\text{-}att(Q,K,V,M) = (\text{softmax}(\frac{QK^T}{\sqrt{d}}) \bigotimes M) V\)，使编码器聚焦于掩码对应的视觉区域

三种重建策略： - 时间重建：掩码谓词及相关名词（运动信息），使用 1D 高斯时间掩码 - 空间重建：掩码主语名词和形容词（外观信息），使用 2D 高斯空间掩码 - 时空重建：随机掩码词汇（动词/名词/形容词概率更高），使用 3D 高斯掩码

3. 互约束学习¶

空间到时间约束（space-to-time）：利用空间框的置信度分数引导时间提案生成。选择 Top-K 高分帧作为正提案的时间中心点，最低分帧作为负提案。损失函数最小化正/负提案间的重叠。

时间到空间约束（time-to-space）：确保在同一场景内，相邻帧的目标保持空间连续性。对每个时间提案内相邻帧的预测框，惩罚 IoU 低于阈值的情况。

损失函数 / 训练策略¶

总损失：\(L_{total} = L_{rec} + L_{ipc} + L_{ivc} + L_{mc}\)

重建损失 \(L_{rec}\)：三种重建的交叉熵损失之和
提案间对比损失 \(L_{ipc}\)：确保正提案的重建损失低于负提案（含 margin）
视频内对比损失 \(L_{ivc}\)：时空重建的正样本 vs 硬/易负样本（反转时间掩码、均匀掩码）
互约束损失 \(L_{mc}\)：空间到时间 + 时间到空间约束

训练参数：K=4（HCSTVG/VidSTG），时空建模 3 层 transformer，TR 使用 6 层，margin 参数 β₁=0.5, β₂=0.7, β₃=0.5, β₄=0.7。

实验关键数据¶

主实验¶

数据集	指标	TubeRMC	VCMA (前SOTA)	提升
HCSTVG-v1	m_vIoU	19.38	14.64	+4.74
HCSTVG-v1	vIoU@0.3	23.88	18.60	+5.28
HCSTVG-v2	m_vIoU	20.64	-	-
VidSTG-Decl	m_vIoU	15.93	14.45	+1.48
VidSTG-Decl	vIoU@0.3	25.16	18.57	+6.59
VidSTG-Inter	m_vIoU	13.47	13.25	+0.22

与 MDETR 基线对比（HCSTVG-v2）：TubeRMC 超过 MDETR-Zero 8.43%，超过 MDETR+CPL 5.55%。

消融实验¶

重建策略消融（HCSTVG-v1）：

空间	时间	时空	m_vIoU	vIoU@0.3	说明
✗	✗	✗	14.91	14.87	无重建基线
✓	✗	✗	15.24	14.74	+空间
✗	✓	✗	17.59	20.25	+时间（+2.68重要）
✓	✓	✗	18.12	20.43	空间+时间互补
✓	✓	✓	19.38	23.88	全部策略最优

互约束消融：

s-to-t	t-to-s	m_vIoU	m_tIoU	m_sIoU
✗	✗	15.87	26.69	59.83
✓	✗	17.65	29.04	59.95
✗	✓	17.07	27.38	60.13
✓	✓	19.38	30.94	61.67

视觉定位模型替换：使用 G-DINO(Swin-B) 可将 m_vIoU 提升至 21.15%，但默认使用 MDETR 以平衡速度与性能。

关键发现¶

时间重建带来最大单项提升（+2.68 m_vIoU），凸显时间建模在 WSTVG 中的重要性
三种重建策略互补，组合使用效果最佳
空间到时间约束主要提升 m_tIoU（+2.35/+3.56），时间到空间约束主要提升 m_sIoU
更强的视觉定位模型（G-DINO-Swin-B）可进一步提升性能

亮点与洞察¶

三维重建范式：首次从 1D/2D/3D 三个维度进行 tube-文本对应关系学习，思路清晰优雅
互约束机制：利用空间信息引导时间提案生成，时间提案约束空间连续性，形成良性循环
可插拔视觉定位模型：框架对视觉定位模型不敏感，可随模型升级获得收益
重建即理解：通过"能否重建掩码文本"来评估 tube-文本匹配质量，是一种优雅的弱监督信号

局限与展望¶

在严重视角变化和遮挡情况下，MDETR 可能错误分配边界框给相似动作的其他人（如可视化案例第3行）
性能仍依赖于视觉定位模型的质量，当 MDETR 预训练语料与目标数据集差异大时（如 VidSTG Interrogative），效果受限
可引入跟踪算法生成更高质量的 tube 提案
3D 高斯掩码参数的自动学习值得探索

评分¶

新颖性: ⭐⭐⭐⭐ — 三维重建和互约束机制有新意
实验充分度: ⭐⭐⭐⭐⭐ — 消融充分，四个数据集，多种设置
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式完整
价值: ⭐⭐⭐⭐ — 推进了弱监督 STVG 的研究前沿