World-Consistent Video Diffusion with Explicit 3D Modeling¶

会议: CVPR 2025
arXiv: 2412.01821
代码: https://zqh0253.github.io/wvd
领域: 3D视觉
关键词: 3D一致性生成, 扩散模型, XYZ图像, 多视角合成, 深度估计

一句话总结¶

本文提出 WVD（World-consistent Video Diffusion），通过训练扩散模型联合建模 RGB 图像和 XYZ 图像（编码全局3D坐标），实现了显式3D约束下的多视角一致性视频生成，并通过灵活的 inpainting 策略统一了单图3D重建、多视角立体、相机控制生成等多种任务。

研究背景与动机¶

领域现状：扩散模型在图像和视频生成上取得了巨大成功，多视角扩散模型通过注意力机制隐式地学习3D一致性。相机控制方法（如 CameraCtrl、MotionCtrl）通过 camera ray map 条件注入来控制视角。

现有痛点：（1）隐式方法缺乏显式3D一致性保证，即使训练数据量很大，仍会出现3D不一致的伪影；（2）依赖 camera ray 输入难以扩展到大规模数据，因为不同数据集间的相机表示存在根本性歧义，需要复杂的归一化处理；（3）显式3D方法（如体渲染）受限于架构约束，难以扩展到复杂数据。

核心矛盾：要在生成模型中实现3D一致性，传统的隐式方法（注意力跨帧学习）不可靠，而显式3D方法（体渲染等）又与现有2D Transformer 架构不兼容。

本文目标：设计一种既能提供显式3D监督、又与现有 DiT 架构兼容的方法。

切入角度：作者提出用 XYZ 图像表示3D几何——每个像素记录其全局3D坐标。XYZ 图像与 RGB 图像具有相同的形状，天然兼容2D Transformer 架构。

核心 idea：将3D场景表示为 RGB + XYZ 的"6D视频"，训练 DiT 联合扩散这两种模态，从而在生成过程中同时产出外观和几何。

方法详解¶

整体框架¶

WVD 的输入是一组6D视频——每个视角包含一张 RGB 图像和一张 XYZ 图像（编码全局3D坐标）。训练时，将 RGB 和 XYZ 分别通过预训练 VAE 编码到隐空间，沿通道维度拼接后进行联合扩散去噪。推理时，通过灵活的 inpainting 策略——将已知模态替换为 ground truth 来实现条件生成——支持多种下游任务。

关键设计¶

XYZ 图像表示:
- 功能：将3D几何信息编码为与 RGB 兼容的图像格式
- 核心思路：将点云通过归一化（居中+缩放到[-1,1]）和光栅化（投影到相机平面）转换为 XYZ 图像 \(\boldsymbol{x}^{\text{XYZ}} = \mathcal{R}(\mathcal{N}(X), X, C)\)。XYZ 图像与 RGB 图像同形状，每个像素值代表全局3D坐标而非颜色。两个不同视角中具有相同 XYZ 值的像素在3D空间中对应同一点，直接提供显式像素对应关系。
- 设计动机：点云的非结构化特征（\(\mathbb{R}^{N \times 3}\)）与 DiT 不兼容；XYZ 图像保持了结构化的2D格式，可直接用预训练 VAE 编码，且消除了对额外相机参数输入的需求。
RGB-XYZ 联合扩散:
- 功能：同时生成外观和3D几何
- 核心思路：将 RGB 和 XYZ 的 VAE 隐码沿通道维拼接为 \(\boldsymbol{z}_n = [\mathcal{E}(\boldsymbol{x}_n^{\text{RGB}}); \mathcal{E}(\boldsymbol{x}_n^{\text{XYZ}})] \in \mathbb{R}^{L \times 2D}\)，在此基础上执行标准扩散训练。由于 XYZ 图像已归一化到[-1,1]，可直接使用预训练 VAE 而无需额外微调。对于图像条件生成，在每个训练步去除条件图像上的噪声即可。
- 设计动机：通道拼接设计可以直接微调预训练的图像/视频扩散模型，大幅提高训练效率。联合建模使 XYZ 的显式3D对应关系能够反过来约束 RGB 的多视角一致性。
Post Optimization 与灵活推理:
- 功能：从预测的 XYZ 图像恢复精确相机参数和深度图，并支持多种下游任务
- 核心思路：对预测的 XYZ 图像执行梯度优化的重投影损失 \(\min_{P,K,\boldsymbol{d}} \sum_{u,v} \|\tilde{\boldsymbol{x}}^{\text{XYZ}}_{u,v} - \hat{\boldsymbol{x}}^{\text{XYZ}}_{u,v}\|^2\)，恢复相机位姿、内参和深度图。推理时利用 inpainting 策略实现任务切换：（a）提供 RGB 估计 XYZ → 单目/多目深度估计；（b）提供 XYZ 生成 RGB → 相机控制视频生成；（c）联合生成 → 单图3D重建。
- 设计动机：联合分布 \(P(\text{RGB}, \text{XYZ})\) 自然支持条件分布估计，一个模型即可统一多种3D任务，无需分别训练。

损失函数 / 训练策略¶

使用标准的扩散模型去噪损失（预测噪声或预测干净数据），在 RGB 和 XYZ 的拼接隐码上操作。训练数据混合了 RealEstate10K、ScanNet、MVImgNet、CO3D 和 Habitat，涵盖物体中心和场景中心分布。模型20亿参数，使用 AdamW 优化器，学习率 \(3 \times 10^{-4}\)，64块 A100 训练约两周。

实验关键数据¶

主实验¶

方法	FID↓	KPM↑	FC↑
CameraCtrl	12.1	88.6	94.0
MotionCtrl	12.9	68.6	94.6
WVD	15.8	95.8	95.4
WVD w/o XYZ	18.3	72.3	95.0

在单图3D生成任务中，WVD 的 Key Points Matching（多视角一致性指标）远超基线，达到95.8%。

消融实验¶

配置	FID↓	KPM↑	FC↑
WVD（完整）	15.8	95.8	95.4
WVD w/o XYZ	18.3	72.3	95.0

移除 XYZ 联合学习后，KPM 从95.8%骤降至72.3%，图像质量 FID 也从15.8恶化到18.3，充分验证了显式3D监督的关键作用。

深度估计结果：

方法	NYU-v2 Rel↓	BONN Rel↓
DUSt3R-224	10.3	11.1
DUSt3R-512*	6.5	8.1
WVD (256)	9.7	7.0

在 BONN 基准上以256分辨率训练的 WVD 超越了所有方法包括512分辨率的 DUSt3R。

关键发现¶

联合学习 XYZ 是核心——消融表明移除 XYZ 后多视角一致性大幅下降
WVD 作为生成模型进行深度估计具有竞争力，因为联合采样一致的周围视角使深度预测更具3D基础
相机控制生成通过"估计3D → 重投影 → inpainting"的管线实现，不需要在训练时显式加入相机条件
合成的点云可作为"空间记忆"逐步扩展，实现长视频的一致性生成

亮点与洞察¶

XYZ 图像是绝妙的设计：将非结构化的3D几何问题转化为结构化的图像生成问题，巧妙复用了强大的2D生成基础设施
消除相机输入：不再需要 camera ray map 作为条件，避免了跨数据集相机标准化的复杂工程
一个模型统一多任务：深度估计、新视角合成、相机控制生成、3D重建都通过 inpainting 策略实现
生成式深度估计的新范式：通过联合生成多视角来获得深度，比单张图像回归更具几何合理性

局限与展望¶

目前仅在静态数据集上训练，无法处理动态场景（4D）
未引入置信度图，难以处理无界或户外场景
分辨率限制在256×256，距离实用还有距离
未来可将 XYZ 替换为其他模态（光流、splatter 图像）扩展更多任务

评分¶

新颖性: 8/10 — XYZ 图像联合扩散的想法简洁优雅，具有开创性
实验充分度: 7/10 — 覆盖多个任务但缺少与更多近期方法的对比
写作质量: 8/10 — 方法描述清晰，框架图直观
价值: 8/10 — 提出了迈向3D基础模型的可行路径