VIGOR: Video Geometry-Oriented Reward for Temporal Generative Alignment¶

日期: 2026-03-17
arXiv: 2603.16271
代码: 项目页面
领域: 图像生成 / 视频理解
关键词: 视频扩散模型, 几何奖励, 重投影误差, 测试时缩放, VGGT

一句话总结¶

提出基于 VGGT 几何基础模型的逐点重投影误差奖励，通过几何感知采样聚焦关键区域，支持 SFT/DPO 后训练和因果视频模型的测试时缩放（TTS），有效缓解视频生成中的物体变形、空间漂移和深度违规等几何不一致问题。

领域现状: 视频扩散模型（Sora、Wan、HunyuanVideo）在逼真度上取得巨大进步，但训练中缺乏显式几何监督——导致生成视频中出现物体变形、空间漂移、深度违规等几何伪影。
现有痛点: (a) 闭源模型通过海量数据隐式学几何先验——开源模型无法复制这种数据规模优势；(b) 显式几何监督（深度图、相机位姿条件化）受限于配对数据稀缺；(c) 现有几何度量在像素空间计算，受像素强度噪声干扰。
核心矛盾: 需要评估和改善视频的几何一致性，但缺乏可靠的几何质量信号——无法在训练/推理中有效引导模型。
切入角度: 利用预训练几何基础模型（VGGT）估计深度和相机参数，计算跨帧逐点重投影误差作为几何奖励——物理更合理、比像素级更鲁棒。
核心 idea: 几何奖励 + 几何感知采样 + 双路径对齐（后训练 SFT/DPO + 推理时 TTS）。

两大组件： 1. 几何奖励模型: VGGT 估计深度+相机参数 → 几何感知采样选择关键区域 → 跨帧逐点重投影误差 2. 几何偏好对齐: 后训练路径（SFT/DPO on 双向模型）+ 推理时路径（TTS on 因果模型）

几何感知采样 (GAS):
- 做什么：自动识别视频中几何有意义的区域，过滤天空/地面等低纹理区域
- 核心思路：利用 VGGT 浅层全局注意力的注意力图——这些层自然地强调几何显著区域。选择 top-τ% 注意力值的 patch 中心作为采样点
- 设计动机：对全图均匀计算重投影误差会被无特征区域污染（天空、平坦地面没有可靠对应点）
逐点重投影误差:
- 做什么：量化跨帧几何一致性
- 核心思路：采样点 → VGGT 估计深度 → 反投影到 3D 世界坐标 → 重投影到目标帧 → 计算与 tracker 对应点的 L2 距离 \(\mathcal{E}_{\text{reproj}} = \frac{1}{|\mathcal{V}|}\sum_{(k,i,j) \in \mathcal{V}} \|\hat{\mathbf{p}}_k^{(j)} - \mathbf{p}_k^{(j)}\|_2\)
- 与像素级的区别：逐点方式避免了像素强度（颜色、光照变化）引入的噪声
测试时缩放 (TTS) for 因果模型:
- 做什么：推理时用几何奖励引导因果自回归视频模型的生成
- 三种搜索策略：Search on Start（开头多采样选最优）、Search on Path（路径中验证+重采样）、Beam Search（多路径并行保留最优）
- 设计动机：因果模型的逐帧生成结构天然支持路径搜索——这是首次将 TTS 应用于流式视频模型