WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories¶
日期: 2026-03-02
arXiv: 2603.02049
代码: GitHub
领域: 3d_vision
关键词: Video Diffusion Model, 3D Reconstruction, Camera Control, Geometric Memory, World Model
一句话总结¶
WorldStereo 提出了一个基于几何记忆的多轨迹视频生成框架,通过全局几何记忆(GGM)和空间立体记忆(SSM)两个模块,实现了精确相机控制下的多视角一致视频生成,并可用于高质量 3D 场景重建,同时通过 DMD 蒸馏实现 20× 加速。
研究背景与动机¶
当前基于视频扩散模型(VDM)的相机引导生成已取得显著进展,但要从生成的视频中恢复一致可靠的 3D 场景依然充满挑战。核心矛盾在于:
- 长视频生成方案(Long-Bi)虽然有双向注意力机制确保一致性,但视频质量下降且计算开销巨大;
- 自回归生成(AR)方案虽然高效,但相机精度有限且存在误差累积;
- 现有相机引导 VDM 无法保持跨轨迹一致性,导致 3D 重建结果模糊不清。
WorldStereo 采用"多段双向+记忆"(Multi-Bi-Mem)的新范式,在保留预训练 VDM 泛化能力的基础上,通过几何感知记忆机制实现多轨迹一致生成。
方法详解¶
整体框架¶
WorldStereo 构建于 Wan2.1-14B-I2V 之上,使用 Uni3C 作为基础相机引导 VDM,包含两个 ControlNet 分支:
- Camera Branch: 注入相机 Plücker 射线和全局点云条件
- SSM Branch: 注入从记忆库中检索的参考帧及其 3D 对应关系
生成流程采用"先生成后重建"的范式:多次生成不同轨迹的视频 → 使用 WorldMirror 前馈式重建 → 合并点云。
关键设计¶
1. 全局几何记忆(GGM)¶
- 将点云条件从单帧扩展为增量更新的全局点云:\(X_{pcd}^g = [X_{pcd}, \hat{X}_{pcd}]\)
- 训练时引入点云遮挡策略,随机丢弃目标视角的部分点云以增强鲁棒性
- 支持全景图输入:利用 MoGe 全景深度估计构建 360° 初始 3D 缓存
2. 空间立体记忆(SSM)¶
- 灵感来自立体匹配:为每个目标帧从记忆库检索最近邻参考帧
- 将目标帧与参考帧水平拼接,并加入 3D 点图(pointmap)表示对应关系
- 注意力机制限制感受野:每个目标-参考对只关注自身特征(沿 \(H \times 2W\) 维度操作)
- SSM 分支包含 20 层 DiT block,从头开始训练
3. 记忆库与 3D 缓存¶
- 2D 记忆库:存储时间下采样后的生成帧作为参考视图
- 3D 缓存:保存由 WorldMirror 重建的全局点云,通过 Umeyama 变换对齐不同视角的点云
加速策略(DMD)¶
采用修改版 Distribution Matching Distillation: - 将推理步数从 40 步降至 4 步,结合 CFG-free 实现 20× 整体加速 - 冻结相机控制分支,仅训练主干网络 - 关键发现:记忆控制分支无需联合微调即可泛化到蒸馏后的生成器
实验关键数据¶
主实验¶
OOD 相机控制基准(WorldScore 100 张图片):
| 方法 | RotErr↓ | TransErr↓ | ATE↓ | Q-Align-Img↑ | CLIP-Img↑ | 推理时间(s) |
|---|---|---|---|---|---|---|
| SEVA | 0.171 | 0.540 | 1.023 | 3.907 | 0.782 | 90 |
| Gen3C | 0.220 | 0.275 | 1.071 | 4.094 | 0.820 | 158 |
| Uni3C | 0.155 | 0.192 | 0.572 | 4.202 | 0.846 | 162 |
| WorldStereo* | 0.132 | 0.178 | 0.542 | 4.273 | 0.860 | 162 |
| WorldStereo-Full | 0.145 | 0.253 | 0.667 | 4.287 | 0.866 | 173 |
| WorldStereo-DMD | 0.146 | 0.203 | 0.504 | 4.338 | 0.874 | 9 |
3D 重建基准(Tanks-and-Temples):
| 方法 | Precision↑ | Recall↑ | ATE↓ |
|---|---|---|---|
| Uni3C | 0.424 | 0.378 | 0.362 |
| Gen3C | 0.416 | 0.380 | 0.342 |
| SEVA | 0.286 | 0.293 | 0.379 |
| VMem | 0.386 | 0.375 | 0.533 |
| WorldStereo-Full | 0.578 | 0.437 | 0.247 |
| WorldStereo-DMD | 0.534 | 0.410 | 0.291 |
消融实验¶
记忆组件消融(含 GT 视频的 100 场景基准):
| 配置 | ATE↓ | RotErr↓ | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|---|
| 无记忆 (Baseline*) | 1.300 | 0.112 | 14.64 | 0.443 | 0.412 |
| +GGM | 0.699 | 0.067 | 17.45 | 0.532 | 0.288 |
| +GGM+SSM (Full) | 0.748 | 0.079 | 18.40 | 0.561 | 0.283 |
关键发现¶
- GGM 主要提升粗粒度结构一致性和相机控制精度
- SSM 主要保留细粒度纹理细节(如建筑立面、文字等)
- 3D 对应关系(pointmap)对 SSM 的细节恢复至关重要
- DMD 蒸馏后性能几乎无损,推理速度提升 20×
亮点与洞察¶
- Multi-Bi-Mem 范式:巧妙地避开了长序列生成的困局,保留了预训练 VDM 的泛化能力
- ControlNet 分支的解耦设计:使得 DMD 蒸馏无需联合训练,大幅简化加速流程
- 全景 3D 生成:框架天然支持从全景图输入的 3D 场景生成
- 新评测基准:提出了基于 Tanks-and-Temples 和 MipNeRF360 的 3D 重建基准
局限性 / 可改进方向¶
- 训练数据需要高质量深度图对齐,限制了数据规模
- 全景场景中某些正面朝前的场景需手动调整旋转角度
- SSM 在单图输入的相机控制场景中略微降低了视觉质量
- 目前仅支持 480p 训练,720p 需要推理时泛化
相关工作与启发¶
- Uni3C: 基础相机引导 VDM,本文在此基础上扩展记忆机制
- Dust3R/WorldMirror: 前馈式 3D 重建,用于构建 3D 缓存
- VMem: 基于 surfel 索引的记忆机制,但缺乏几何对应信息
- 立体匹配的思想启发了 SSM 的设计
评分¶
- 新颖性: ⭐⭐⭐⭐ 多轨迹+记忆机制的设计思路新颖,GGM 和 SSM 互补设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 提出新基准、大量消融、定量定性全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法阐释到位
- 价值: ⭐⭐⭐⭐ 在 3D 场景生成领域具有较好的实用价值,20× 加速令人印象深刻