Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos¶

日期: 2026-03-18
arXiv: 2603.17693
领域: 视频理解
关键词: 时序原语, 合成视频, Chain-of-Thought, 强化学习, 数据效率, 视频VLM, post-training

一句话总结¶

通过代码生成的合成几何视频构造 7.7K CoT + 7K RL 样本，教授模型方向/速度/状态追踪等基础时序理解原语，仅用 7.7K 合成数据就在 15 个视频推理基准上超越 Video-R1 的 165K 真实样本（数据效率 21 倍）。

VLM 时序推理能力严重不足：当前最强 VLM（如 Gemini-2.5-Pro）在简单几何视频上也存在系统性错误——错误描述运动方向、误判速度。这些"流利但错误"的推理在用来标注数据时会毒害监督信号。
现有时序数据两大致命缺陷：
- (1) 单帧推断性：公开视频 QA 中许多问题可从单帧推断，不需真正的时间积分
- (2) 标注污染：依赖闭源模型生成标注，这些模型本身时序推理有系统性偏差（普遍过估速度、误判方向），错误被逆向强化
核心洞察：时序理解的本质是抽象原语——方向识别、速度感知、状态追踪等。从简单合成场景学到的原语可直接泛化到复杂真实视频。

第一阶段：合成数据生成 - Python 脚本生成几何视频（运动小球、多色方块、碰撞场景等） - 代码层实时导出帧级元数据（位置、速度、加速度）和事件时间戳——100% 准确标注

第二阶段：四步 CoT 净化管道 1. 生成：VLM 对每个合成视频生成初始推理链 2. 验证：用代码导出真值检验 CoT 正确性 3. 反馈：对错误 CoT 给反馈信号（"你说向左，实际向右"） 4. 打磨：VLM 重新生成修正后 CoT

第三阶段：两阶段训练 - SFT：7.7K 合成 CoT（+ 15% 真实 QA 无 CoT）训练显式推理结构 - GRPO RL：7K 合成视频在完全正确的奖励信号下优化推理准确度

时序原语分解:
- 短期感知（0.5-2s）：方向识别、速度感知、轨迹追踪、碰撞计数、加速度检测
- 长期认知（3-10s）：网格对象追踪、符号操作、数学推理、状态倒推
- 所有问题需跨多帧追踪，单帧无法求解——确保学的是真正的时序能力
可验证合成数据:
- 做什么：避免信息污染，确保训练信号 100% 准确
- 从代码导出帧级状态快照和事件时间戳，彻底避免闭源模型标注的系统性偏差
- 优势：(1) 消除逆过程噪声 (2) 完全可溯源可审计 (3) 无比对费用
两阶段训练:
- SFT 教模型"怎样思考"（显式推理结构）
- GRPO RL 在完全诚实的奖励信号下优化推理准确度（区别于使用有偏标注的传统方式）

方案	训练数据	TOMATO 提升	RexTime 提升
Video-R1 (165K real)	165K	baseline	baseline
SynRL (7.7K synth)	7.7K	+4.6pp	+12.6pp
数据效率比	21.4× 少	竞争或优	显著优

基准	Qwen3-VL-4B	+ SynRL	提升
TOMATO	32.1	36.7	+4.6
Video-TT	38.9	40.7	+1.8
MVBench	65.4	67.1	+1.7
RexTime	-	-	+12.6

核心贡献：时序原语 + 合成数据 + CoT 净化 + 两阶段训练，7.7K 数据超越 165K 真实样本，颠覆 VLM post-training 范式