WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories¶

日期: 2026-03-02
arXiv: 2603.02049
代码: GitHub
领域: 3d_vision
关键词: Video Diffusion Model, 3D Reconstruction, Camera Control, Geometric Memory, World Model

一句话总结¶

WorldStereo 提出了一个基于几何记忆的多轨迹视频生成框架，通过全局几何记忆（GGM）和空间立体记忆（SSM）两个模块，实现了精确相机控制下的多视角一致视频生成，并可用于高质量 3D 场景重建，同时通过 DMD 蒸馏实现 20× 加速。

研究背景与动机¶

当前基于视频扩散模型（VDM）的相机引导生成已取得显著进展，但要从生成的视频中恢复一致可靠的 3D 场景依然充满挑战。核心矛盾在于：

长视频生成方案（Long-Bi）虽然有双向注意力机制确保一致性，但视频质量下降且计算开销巨大；
自回归生成（AR）方案虽然高效，但相机精度有限且存在误差累积；
现有相机引导 VDM 无法保持跨轨迹一致性，导致 3D 重建结果模糊不清。

WorldStereo 采用"多段双向+记忆"（Multi-Bi-Mem）的新范式，在保留预训练 VDM 泛化能力的基础上，通过几何感知记忆机制实现多轨迹一致生成。

方法详解¶

整体框架¶

WorldStereo 构建于 Wan2.1-14B-I2V 之上，使用 Uni3C 作为基础相机引导 VDM，包含两个 ControlNet 分支：

Camera Branch: 注入相机 Plücker 射线和全局点云条件
SSM Branch: 注入从记忆库中检索的参考帧及其 3D 对应关系

生成流程采用"先生成后重建"的范式：多次生成不同轨迹的视频 → 使用 WorldMirror 前馈式重建 → 合并点云。

关键设计¶

1. 全局几何记忆（GGM）¶

将点云条件从单帧扩展为增量更新的全局点云：\(X_{pcd}^g = [X_{pcd}, \hat{X}_{pcd}]\)
训练时引入点云遮挡策略，随机丢弃目标视角的部分点云以增强鲁棒性
支持全景图输入：利用 MoGe 全景深度估计构建 360° 初始 3D 缓存

2. 空间立体记忆（SSM）¶

灵感来自立体匹配：为每个目标帧从记忆库检索最近邻参考帧
将目标帧与参考帧水平拼接，并加入 3D 点图（pointmap）表示对应关系
注意力机制限制感受野：每个目标-参考对只关注自身特征（沿 \(H \times 2W\) 维度操作）
SSM 分支包含 20 层 DiT block，从头开始训练

3. 记忆库与 3D 缓存¶

2D 记忆库：存储时间下采样后的生成帧作为参考视图
3D 缓存：保存由 WorldMirror 重建的全局点云，通过 Umeyama 变换对齐不同视角的点云

加速策略（DMD）¶

采用修改版 Distribution Matching Distillation： - 将推理步数从 40 步降至 4 步，结合 CFG-free 实现 20× 整体加速 - 冻结相机控制分支，仅训练主干网络 - 关键发现：记忆控制分支无需联合微调即可泛化到蒸馏后的生成器

实验关键数据¶

主实验¶

OOD 相机控制基准（WorldScore 100 张图片）：

方法	RotErr↓	TransErr↓	ATE↓	Q-Align-Img↑	CLIP-Img↑	推理时间(s)
SEVA	0.171	0.540	1.023	3.907	0.782	90
Gen3C	0.220	0.275	1.071	4.094	0.820	158
Uni3C	0.155	0.192	0.572	4.202	0.846	162
WorldStereo*	0.132	0.178	0.542	4.273	0.860	162
WorldStereo-Full	0.145	0.253	0.667	4.287	0.866	173
WorldStereo-DMD	0.146	0.203	0.504	4.338	0.874	9

3D 重建基准（Tanks-and-Temples）：

方法	Precision↑	Recall↑	ATE↓
Uni3C	0.424	0.378	0.362
Gen3C	0.416	0.380	0.342
SEVA	0.286	0.293	0.379
VMem	0.386	0.375	0.533
WorldStereo-Full	0.578	0.437	0.247
WorldStereo-DMD	0.534	0.410	0.291

消融实验¶

记忆组件消融（含 GT 视频的 100 场景基准）：

配置	ATE↓	RotErr↓	PSNR↑	SSIM↑	LPIPS↓
无记忆 (Baseline*)	1.300	0.112	14.64	0.443	0.412
+GGM	0.699	0.067	17.45	0.532	0.288
+GGM+SSM (Full)	0.748	0.079	18.40	0.561	0.283

关键发现¶

GGM 主要提升粗粒度结构一致性和相机控制精度
SSM 主要保留细粒度纹理细节（如建筑立面、文字等）
3D 对应关系（pointmap）对 SSM 的细节恢复至关重要
DMD 蒸馏后性能几乎无损，推理速度提升 20×

亮点与洞察¶

Multi-Bi-Mem 范式：巧妙地避开了长序列生成的困局，保留了预训练 VDM 的泛化能力
ControlNet 分支的解耦设计：使得 DMD 蒸馏无需联合训练，大幅简化加速流程
全景 3D 生成：框架天然支持从全景图输入的 3D 场景生成
新评测基准：提出了基于 Tanks-and-Temples 和 MipNeRF360 的 3D 重建基准

局限性 / 可改进方向¶

训练数据需要高质量深度图对齐，限制了数据规模
全景场景中某些正面朝前的场景需手动调整旋转角度
SSM 在单图输入的相机控制场景中略微降低了视觉质量
目前仅支持 480p 训练，720p 需要推理时泛化

评分¶

新颖性: ⭐⭐⭐⭐ 多轨迹+记忆机制的设计思路新颖，GGM 和 SSM 互补设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 提出新基准、大量消融、定量定性全面
写作质量: ⭐⭐⭐⭐ 结构清晰，方法阐释到位
价值: ⭐⭐⭐⭐ 在 3D 场景生成领域具有较好的实用价值，20× 加速令人印象深刻