VIGOR: Video Geometry-Oriented Reward for Temporal Generative Alignment¶
日期: 2026-03-17
arXiv: 2603.16271
代码: 项目页面
领域: 图像生成 / 视频理解
关键词: 视频扩散模型, 几何奖励, 重投影误差, 测试时缩放, VGGT
一句话总结¶
提出基于 VGGT 几何基础模型的逐点重投影误差奖励,通过几何感知采样聚焦关键区域,支持 SFT/DPO 后训练和因果视频模型的测试时缩放(TTS),有效缓解视频生成中的物体变形、空间漂移和深度违规等几何不一致问题。
研究背景与动机¶
-
领域现状: 视频扩散模型(Sora、Wan、HunyuanVideo)在逼真度上取得巨大进步,但训练中缺乏显式几何监督——导致生成视频中出现物体变形、空间漂移、深度违规等几何伪影。
-
现有痛点: (a) 闭源模型通过海量数据隐式学几何先验——开源模型无法复制这种数据规模优势;(b) 显式几何监督(深度图、相机位姿条件化)受限于配对数据稀缺;(c) 现有几何度量在像素空间计算,受像素强度噪声干扰。
-
核心矛盾: 需要评估和改善视频的几何一致性,但缺乏可靠的几何质量信号——无法在训练/推理中有效引导模型。
-
切入角度: 利用预训练几何基础模型(VGGT)估计深度和相机参数,计算跨帧逐点重投影误差作为几何奖励——物理更合理、比像素级更鲁棒。
-
核心 idea: 几何奖励 + 几何感知采样 + 双路径对齐(后训练 SFT/DPO + 推理时 TTS)。
方法详解¶
整体框架¶
两大组件: 1. 几何奖励模型: VGGT 估计深度+相机参数 → 几何感知采样选择关键区域 → 跨帧逐点重投影误差 2. 几何偏好对齐: 后训练路径(SFT/DPO on 双向模型)+ 推理时路径(TTS on 因果模型)
关键设计¶
-
几何感知采样 (GAS):
- 做什么:自动识别视频中几何有意义的区域,过滤天空/地面等低纹理区域
- 核心思路:利用 VGGT 浅层全局注意力的注意力图——这些层自然地强调几何显著区域。选择 top-τ% 注意力值的 patch 中心作为采样点
- 设计动机:对全图均匀计算重投影误差会被无特征区域污染(天空、平坦地面没有可靠对应点)
-
逐点重投影误差:
- 做什么:量化跨帧几何一致性
- 核心思路:采样点 → VGGT 估计深度 → 反投影到 3D 世界坐标 → 重投影到目标帧 → 计算与 tracker 对应点的 L2 距离 \(\mathcal{E}_{\text{reproj}} = \frac{1}{|\mathcal{V}|}\sum_{(k,i,j) \in \mathcal{V}} \|\hat{\mathbf{p}}_k^{(j)} - \mathbf{p}_k^{(j)}\|_2\)
- 与像素级的区别:逐点方式避免了像素强度(颜色、光照变化)引入的噪声
-
测试时缩放 (TTS) for 因果模型:
- 做什么:推理时用几何奖励引导因果自回归视频模型的生成
- 三种搜索策略:Search on Start(开头多采样选最优)、Search on Path(路径中验证+重采样)、Beam Search(多路径并行保留最优)
- 设计动机:因果模型的逐帧生成结构天然支持路径搜索——这是首次将 TTS 应用于流式视频模型
数据¶
- GB3DV-25k: 25,600 对几何偏好视频对(好/差配对),覆盖多种场景和相机运动
实验关键数据¶
| 方法 | 几何一致性↑ | 视觉质量 |
|---|---|---|
| 基线(Wan2.1等) | 有几何伪影 | 高 |
| + SFT (VIGOR reward) | 显著改善 | 保持 |
| + DPO (VIGOR reward) | 进一步改善 | 保持 |
| + TTS (因果模型) | 明显改善 | 保持 |
- VIGOR 奖励比像素级奖励变体更鲁棒
- TTS 在因果模型上无需重训练即可提升几何质量
亮点与洞察¶
- VGGT 的"免费"几何感知能力:浅层注意力自动聚焦几何显著区域——不需要额外模块,直接复用基础模型的内部表示。
- 逐点 vs 像素级:像素级重投影受颜色/光照变化干扰,逐点方式只关注空间位置是否对齐——更物理合理。
- TTS for 流式视频模型:首次探索,因果模型的逐帧结构天然适合路径搜索——对比双向模型只能BoN。
- 不需要几何GT:奖励完全基于 VGGT 的自监督估计——无需深度图或相机位姿的真值配对数据。
局限性 / 可改进方向¶
- 依赖 VGGT 估计质量:如果 VGGT 对某些场景(如极端运动模糊)估计不准,奖励信号也不可靠
- GB3DV-25k 规模有限:25K 对可能不足以覆盖所有几何场景
- TTS 增加推理成本:Beam Search 需要多路径并行,推理时间成倍增加
相关工作与启发¶
- vs Epipolar-DPO: 用 Sampson 极线距离做 DPO 信号——是 2D 几何约束。VIGOR 用 3D 重投影误差——物理更彻底
- vs VideoGPA: 也用 VGGT 但计算像素级差异。VIGOR 的逐点方式更鲁棒
- 启发:几何奖励 + TTS 的组合可以作为通用范式——任何可计算的"物理合理性"指标都可以类似方式引导生成
评分¶
- 新颖性: ⭐⭐⭐⭐ 逐点重投影误差+几何感知采样+TTS for 因果模型,组合新颖
- 实验充分度: ⭐⭐⭐⭐ SFT+DPO+TTS 三条路径+消融+与像素级对比
- 写作质量: ⭐⭐⭐⭐⭐ 框架图清晰,数学严谨
- 价值: ⭐⭐⭐⭐⭐ 对开源视频模型的几何改善有直接应用价值