跳转至

Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos

日期: 2026-03-18
arXiv: 2603.17693
领域: 视频理解
关键词: 时序原语, 合成视频, Chain-of-Thought, 强化学习, 数据效率, 视频VLM, post-training

一句话总结

通过代码生成的合成几何视频构造 7.7K CoT + 7K RL 样本,教授模型方向/速度/状态追踪等基础时序理解原语,仅用 7.7K 合成数据就在 15 个视频推理基准上超越 Video-R1 的 165K 真实样本(数据效率 21 倍)。

研究背景与动机

  1. VLM 时序推理能力严重不足:当前最强 VLM(如 Gemini-2.5-Pro)在简单几何视频上也存在系统性错误——错误描述运动方向、误判速度。这些"流利但错误"的推理在用来标注数据时会毒害监督信号。

  2. 现有时序数据两大致命缺陷

    • (1) 单帧推断性:公开视频 QA 中许多问题可从单帧推断,不需真正的时间积分
    • (2) 标注污染:依赖闭源模型生成标注,这些模型本身时序推理有系统性偏差(普遍过估速度、误判方向),错误被逆向强化
  3. 核心洞察:时序理解的本质是抽象原语——方向识别、速度感知、状态追踪等。从简单合成场景学到的原语可直接泛化到复杂真实视频。

方法详解

SynRL 三阶段端到端

第一阶段:合成数据生成 - Python 脚本生成几何视频(运动小球、多色方块、碰撞场景等) - 代码层实时导出帧级元数据(位置、速度、加速度)和事件时间戳——100% 准确标注

第二阶段:四步 CoT 净化管道 1. 生成:VLM 对每个合成视频生成初始推理链 2. 验证:用代码导出真值检验 CoT 正确性 3. 反馈:对错误 CoT 给反馈信号("你说向左,实际向右") 4. 打磨:VLM 重新生成修正后 CoT

第三阶段:两阶段训练 - SFT:7.7K 合成 CoT(+ 15% 真实 QA 无 CoT)训练显式推理结构 - GRPO RL:7K 合成视频在完全正确的奖励信号下优化推理准确度

关键设计

  1. 时序原语分解:

    • 短期感知(0.5-2s):方向识别、速度感知、轨迹追踪、碰撞计数、加速度检测
    • 长期认知(3-10s):网格对象追踪、符号操作、数学推理、状态倒推
    • 所有问题需跨多帧追踪,单帧无法求解——确保学的是真正的时序能力
  2. 可验证合成数据:

    • 做什么:避免信息污染,确保训练信号 100% 准确
    • 从代码导出帧级状态快照和事件时间戳,彻底避免闭源模型标注的系统性偏差
    • 优势:(1) 消除逆过程噪声 (2) 完全可溯源可审计 (3) 无比对费用
  3. 两阶段训练:

    • SFT 教模型"怎样思考"(显式推理结构)
    • GRPO RL 在完全诚实的奖励信号下优化推理准确度(区别于使用有偏标注的传统方式)

实验关键数据

核心对标:7.7K 合成 vs 165K 真实

方案 训练数据 TOMATO 提升 RexTime 提升
Video-R1 (165K real) 165K baseline baseline
SynRL (7.7K synth) 7.7K +4.6pp +12.6pp
数据效率比 21.4× 少 竞争或优 显著优

15 个基准多维评估

基准 Qwen3-VL-4B + SynRL 提升
TOMATO 32.1 36.7 +4.6
Video-TT 38.9 40.7 +1.8
MVBench 65.4 67.1 +1.7
RexTime - - +12.6
  • 15 个基准全面改善,无任何下降
  • 最大提升在最难的 RexTime(+12.6),说明原语对挑战性场景特别有效

消融实验

配置 TOMATO 说明
完整(CoT + GRPO RL) 36.7% 最优
仅 CoT,无 RL 35.1% 缺 RL 幅度 -1.6pp
仅 RL,无 CoT SFT 34.2% 缺 CoT 基础更差
用真实(有偏)标注代替 Synth 33.5% CoT 质量影响显著
CoT 不净化(直接 VLM 生成) 32.9% 净化管道价值 +1.3pp

亮点与洞察

  • 时序原语的惊人泛化性:从几何形状学到的方向/速度追踪能力直接迁移到人类动作和复杂场景,准确率 > 79%
  • "流利但错误"的系统性危害:首次定量展示专有 VLM 时序标注的系统偏差如何毒化下游模型(用有偏标注 -3.2pp)
  • 极致数据效率颠覆直觉:7.7K 超越 165K 说明关键在于捕捉问题本质而非数据量
  • 多阶段管道的复合效应:CoT 净化 (+1.3pp) + SFT (+2.5pp) + RL (+2.3pp),每个小但合起来 +12.6pp

局限性 / 可改进方向

  • 合成-真实分布差距仍存在,单基准增幅有限(最大 +4.6pp)
  • 长序列(10s+)推理仍有瓶颈,可能需要更显式的状态表示
  • 当前 8 个原语是否覆盖所有视频理解现象(消失遮挡、3D 透视等)待验证
  • 四步 CoT 净化 + GRPO 的端到端计算成本未充分量化

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 合成替代真实数据的颠覆性策略
  • 实验充分度: ⭐⭐⭐⭐⭐ 15 个基准 + 消融 + 跨任务泛化全覆盖
  • 价值: ⭐⭐⭐⭐⭐ 彻底改变视频 VLM 的 post-training 范式

核心贡献:时序原语 + 合成数据 + CoT 净化 + 两阶段训练,7.7K 数据超越 165K 真实样本,颠覆 VLM post-training 范式