跳转至

VIGOR: Video Geometry-Oriented Reward for Temporal Generative Alignment

日期: 2026-03-17
arXiv: 2603.16271
代码: 项目页面
领域: 图像生成 / 视频理解
关键词: 视频扩散模型, 几何奖励, 重投影误差, 测试时缩放, VGGT

一句话总结

提出基于 VGGT 几何基础模型的逐点重投影误差奖励,通过几何感知采样聚焦关键区域,支持 SFT/DPO 后训练和因果视频模型的测试时缩放(TTS),有效缓解视频生成中的物体变形、空间漂移和深度违规等几何不一致问题。

研究背景与动机

  1. 领域现状: 视频扩散模型(Sora、Wan、HunyuanVideo)在逼真度上取得巨大进步,但训练中缺乏显式几何监督——导致生成视频中出现物体变形、空间漂移、深度违规等几何伪影。

  2. 现有痛点: (a) 闭源模型通过海量数据隐式学几何先验——开源模型无法复制这种数据规模优势;(b) 显式几何监督(深度图、相机位姿条件化)受限于配对数据稀缺;(c) 现有几何度量在像素空间计算,受像素强度噪声干扰。

  3. 核心矛盾: 需要评估和改善视频的几何一致性,但缺乏可靠的几何质量信号——无法在训练/推理中有效引导模型。

  4. 切入角度: 利用预训练几何基础模型(VGGT)估计深度和相机参数,计算跨帧逐点重投影误差作为几何奖励——物理更合理、比像素级更鲁棒。

  5. 核心 idea: 几何奖励 + 几何感知采样 + 双路径对齐(后训练 SFT/DPO + 推理时 TTS)。

方法详解

整体框架

两大组件: 1. 几何奖励模型: VGGT 估计深度+相机参数 → 几何感知采样选择关键区域 → 跨帧逐点重投影误差 2. 几何偏好对齐: 后训练路径(SFT/DPO on 双向模型)+ 推理时路径(TTS on 因果模型)

关键设计

  1. 几何感知采样 (GAS):

    • 做什么:自动识别视频中几何有意义的区域,过滤天空/地面等低纹理区域
    • 核心思路:利用 VGGT 浅层全局注意力的注意力图——这些层自然地强调几何显著区域。选择 top-τ% 注意力值的 patch 中心作为采样点
    • 设计动机:对全图均匀计算重投影误差会被无特征区域污染(天空、平坦地面没有可靠对应点)
  2. 逐点重投影误差:

    • 做什么:量化跨帧几何一致性
    • 核心思路:采样点 → VGGT 估计深度 → 反投影到 3D 世界坐标 → 重投影到目标帧 → 计算与 tracker 对应点的 L2 距离 \(\mathcal{E}_{\text{reproj}} = \frac{1}{|\mathcal{V}|}\sum_{(k,i,j) \in \mathcal{V}} \|\hat{\mathbf{p}}_k^{(j)} - \mathbf{p}_k^{(j)}\|_2\)
    • 与像素级的区别:逐点方式避免了像素强度(颜色、光照变化)引入的噪声
  3. 测试时缩放 (TTS) for 因果模型:

    • 做什么:推理时用几何奖励引导因果自回归视频模型的生成
    • 三种搜索策略:Search on Start(开头多采样选最优)、Search on Path(路径中验证+重采样)、Beam Search(多路径并行保留最优)
    • 设计动机:因果模型的逐帧生成结构天然支持路径搜索——这是首次将 TTS 应用于流式视频模型

数据

  • GB3DV-25k: 25,600 对几何偏好视频对(好/差配对),覆盖多种场景和相机运动

实验关键数据

方法 几何一致性↑ 视觉质量
基线(Wan2.1等) 有几何伪影
+ SFT (VIGOR reward) 显著改善 保持
+ DPO (VIGOR reward) 进一步改善 保持
+ TTS (因果模型) 明显改善 保持
  • VIGOR 奖励比像素级奖励变体更鲁棒
  • TTS 在因果模型上无需重训练即可提升几何质量

亮点与洞察

  • VGGT 的"免费"几何感知能力:浅层注意力自动聚焦几何显著区域——不需要额外模块,直接复用基础模型的内部表示。
  • 逐点 vs 像素级:像素级重投影受颜色/光照变化干扰,逐点方式只关注空间位置是否对齐——更物理合理。
  • TTS for 流式视频模型:首次探索,因果模型的逐帧结构天然适合路径搜索——对比双向模型只能BoN。
  • 不需要几何GT:奖励完全基于 VGGT 的自监督估计——无需深度图或相机位姿的真值配对数据。

局限性 / 可改进方向

  • 依赖 VGGT 估计质量:如果 VGGT 对某些场景(如极端运动模糊)估计不准,奖励信号也不可靠
  • GB3DV-25k 规模有限:25K 对可能不足以覆盖所有几何场景
  • TTS 增加推理成本:Beam Search 需要多路径并行,推理时间成倍增加

相关工作与启发

  • vs Epipolar-DPO: 用 Sampson 极线距离做 DPO 信号——是 2D 几何约束。VIGOR 用 3D 重投影误差——物理更彻底
  • vs VideoGPA: 也用 VGGT 但计算像素级差异。VIGOR 的逐点方式更鲁棒
  • 启发:几何奖励 + TTS 的组合可以作为通用范式——任何可计算的"物理合理性"指标都可以类似方式引导生成

评分

  • 新颖性: ⭐⭐⭐⭐ 逐点重投影误差+几何感知采样+TTS for 因果模型,组合新颖
  • 实验充分度: ⭐⭐⭐⭐ SFT+DPO+TTS 三条路径+消融+与像素级对比
  • 写作质量: ⭐⭐⭐⭐⭐ 框架图清晰,数学严谨
  • 价值: ⭐⭐⭐⭐⭐ 对开源视频模型的几何改善有直接应用价值