Reangle-A-Video: 4D Video Generation as Video-to-Video Translation¶

会议: ICCV 2025
arXiv: 2503.09151
领域: 视频生成·4D生成
关键词: 多视角视频, 视频翻译, 视角迁移, 相机控制, 扩散模型, LoRA, DUSt3R

一句话总结¶

Reangle-A-Video 将多视角视频生成重新定义为视频到视频翻译问题，通过自监督微调视频扩散模型学习视角不变运动，配合 DUSt3R 引导的多视角一致性 inpainting，从单目视频生成同步多视角视频。

研究背景与动机¶

从单个输入视频生成多视角同步视频是 4D 内容生成的核心需求。主流方法通过在大规模 4D 数据集上训练多视角视频扩散模型，但存在以下问题：

数据匮乏：高质量多视角动态视频数据极其稀缺，合成数据域差距大

域限制：训练在合成资产上的模型无法泛化到真实世界场景

非视频输入：现有方法多从文本/图像生成，而非从用户输入的视频出发

封闭代码：多数方法代码不公开

核心思想：将视角变化分解为视角相关的外观（起始图像）和视角不变的运动（image-to-video），用现成的图像和视频扩散先验分别处理。

方法详解¶

Stage I: 基于点的视频变形数据增强¶

给定输入视频 \(\mathbf{x}^{1:N}\)： 1. 使用 Depth Anything V2 估计每帧深度图 \(\mathbf{D}^i\) 2. 将 RGBD 图像提升为点云 \(\mathcal{P}^i = \phi_{2\to3}([\mathbf{x}^i, \mathbf{D}^i], \mathbf{K}, \mathbf{P}^i_{\text{src}})\) 3. 定义 \(M\) 条目标相机外参轨迹 \(\Phi_j = \{\mathbf{P}^1_j, ..., \mathbf{P}^N_j\}\) 4. 重投影得到变形视频和可见性掩码：\((\hat{\mathbf{x}}^i_j, \mathbf{m}^i_j) = \phi_{3\to2}(\mathcal{P}^i, \mathbf{K}, \mathbf{P}^i_j)\)

静态视角迁移：目标轨迹在所有帧保持恒定。动态相机控制：目标姿态逐帧递增变化。

Stage II: 多视角运动学习¶

在 CogVideoX-5b（MM-DiT 架构）上用 LoRA（rank=128）微调 3D 全注意力层，仅优化约 2% 的参数。

关键设计——掩码扩散损失：

\[\mathbb{E}[\|\boldsymbol{\epsilon} \odot \mathbf{m}_{\text{down}}^{1:N} - \epsilon_\theta(\mathbf{z}_t^{1:N}, t, c) \odot \mathbf{m}_{\text{down}}^{1:N}\|_2^2]\]

仅在可见像素上计算损失，避免黑色区域破坏原始模型先验。变形视频和原始视频一起训练，使模型学习视角不变的场景运动。

动态相机控制需在文本提示中显式指定相机运动类型（如"horizontal orbit left"），因为所有变形视频共享同一起始帧。

Stage III: 多视角一致性图像 Inpainting¶

对静态视角迁移，需要从目标视角的起始图像：

变形第一帧到目标视角
使用 FLUX + inpainting ControlNet 填充不可见区域
随机控制引导（核心）：每步生成 \(S=25\) 个候选，用 DUSt3R 计算多视角一致性得分（DINO 特征相似度），选择最优路径继续去噪

这一推理时计算缩放策略确保了跨视角的一致性。

实验¶

定量对比¶

方法	Subject↑	Temporal↑	Dynamic↑	MEt3R↓	FID↓	FVD↓
静态视角迁移
GCD	0.885	0.873	0.761	0.124	155.2	5264.7
Vanilla CogVideoX	0.945	0.974	0.729	0.054	79.6	3664.2
Reangle-A-Video	0.952	0.976	0.766	0.041	53.4	2690.9
动态相机控制
NVS-Solver	0.904	0.905	0.881	0.109	95.8	3516.5
Trajectory Attn	0.898	0.934	0.889	0.097	109.2	3624.9
Reangle-A-Video	0.914	0.939	0.888	0.065	74.2	3019.7

在 MEt3R（多视角一致性）、FID、FVD 上全面领先。

多视角 Inpainting 消融¶

配置	MEt3R↓	SED↓	TSED↑
无随机控制引导	0.143	1.197	0.524
有随机控制引导	0.118	1.184	0.559

随机控制引导显著提升了多视角一致性。

数据增强消融¶

仅用原始视频微调 → 无法准确捕获运动（如犀牛在树前移动）；加入变形视频 → 运动忠实度大幅提升。用户研究进一步确认了这一效果。

亮点与洞察¶

视频翻译范式：将 4D 生成转化为视频到视频翻译，完全避免了昂贵的 4D 数据需求
自监督训练：仅需单个视频，通过深度变形创建多视角训练数据
掩码扩散损失的精妙设计：在可见像素上学习运动，在不可见区域保留模型先验
推理时计算缩放：用 DUSt3R 作为奖励函数，在 inpainting 中强制多视角一致性
统一支持静态视角迁移和动态相机控制，6DoF 自由度

局限性¶

每个视频需要约 1 小时的微调（400 步 LoRA），非即时可用
深度估计误差会传播到变形视频中
对快速运动或大视角变化可能出现伪影
目前仅测试了 28 个视频，大规模效果未知

评分¶

维度	分数 (1-5)
创新性	5
技术深度	5
实验充分性	4
写作质量	4
综合	4.5