跳转至

WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories

日期: 2026-03-02
arXiv: 2603.02049
代码: GitHub
领域: 3d_vision
关键词: Video Diffusion Model, 3D Reconstruction, Camera Control, Geometric Memory, World Model

一句话总结

WorldStereo 提出了一个基于几何记忆的多轨迹视频生成框架,通过全局几何记忆(GGM)和空间立体记忆(SSM)两个模块,实现了精确相机控制下的多视角一致视频生成,并可用于高质量 3D 场景重建,同时通过 DMD 蒸馏实现 20× 加速。

研究背景与动机

当前基于视频扩散模型(VDM)的相机引导生成已取得显著进展,但要从生成的视频中恢复一致可靠的 3D 场景依然充满挑战。核心矛盾在于:

  1. 长视频生成方案(Long-Bi)虽然有双向注意力机制确保一致性,但视频质量下降且计算开销巨大;
  2. 自回归生成(AR)方案虽然高效,但相机精度有限且存在误差累积;
  3. 现有相机引导 VDM 无法保持跨轨迹一致性,导致 3D 重建结果模糊不清。

WorldStereo 采用"多段双向+记忆"(Multi-Bi-Mem)的新范式,在保留预训练 VDM 泛化能力的基础上,通过几何感知记忆机制实现多轨迹一致生成。

方法详解

整体框架

WorldStereo 构建于 Wan2.1-14B-I2V 之上,使用 Uni3C 作为基础相机引导 VDM,包含两个 ControlNet 分支:

  • Camera Branch: 注入相机 Plücker 射线和全局点云条件
  • SSM Branch: 注入从记忆库中检索的参考帧及其 3D 对应关系

生成流程采用"先生成后重建"的范式:多次生成不同轨迹的视频 → 使用 WorldMirror 前馈式重建 → 合并点云。

关键设计

1. 全局几何记忆(GGM)

  • 将点云条件从单帧扩展为增量更新的全局点云\(X_{pcd}^g = [X_{pcd}, \hat{X}_{pcd}]\)
  • 训练时引入点云遮挡策略,随机丢弃目标视角的部分点云以增强鲁棒性
  • 支持全景图输入:利用 MoGe 全景深度估计构建 360° 初始 3D 缓存

2. 空间立体记忆(SSM)

  • 灵感来自立体匹配:为每个目标帧从记忆库检索最近邻参考帧
  • 将目标帧与参考帧水平拼接,并加入 3D 点图(pointmap)表示对应关系
  • 注意力机制限制感受野:每个目标-参考对只关注自身特征(沿 \(H \times 2W\) 维度操作)
  • SSM 分支包含 20 层 DiT block,从头开始训练

3. 记忆库与 3D 缓存

  • 2D 记忆库:存储时间下采样后的生成帧作为参考视图
  • 3D 缓存:保存由 WorldMirror 重建的全局点云,通过 Umeyama 变换对齐不同视角的点云

加速策略(DMD)

采用修改版 Distribution Matching Distillation: - 将推理步数从 40 步降至 4 步,结合 CFG-free 实现 20× 整体加速 - 冻结相机控制分支,仅训练主干网络 - 关键发现:记忆控制分支无需联合微调即可泛化到蒸馏后的生成器

实验关键数据

主实验

OOD 相机控制基准(WorldScore 100 张图片):

方法 RotErr↓ TransErr↓ ATE↓ Q-Align-Img↑ CLIP-Img↑ 推理时间(s)
SEVA 0.171 0.540 1.023 3.907 0.782 90
Gen3C 0.220 0.275 1.071 4.094 0.820 158
Uni3C 0.155 0.192 0.572 4.202 0.846 162
WorldStereo* 0.132 0.178 0.542 4.273 0.860 162
WorldStereo-Full 0.145 0.253 0.667 4.287 0.866 173
WorldStereo-DMD 0.146 0.203 0.504 4.338 0.874 9

3D 重建基准(Tanks-and-Temples):

方法 Precision↑ Recall↑ ATE↓
Uni3C 0.424 0.378 0.362
Gen3C 0.416 0.380 0.342
SEVA 0.286 0.293 0.379
VMem 0.386 0.375 0.533
WorldStereo-Full 0.578 0.437 0.247
WorldStereo-DMD 0.534 0.410 0.291

消融实验

记忆组件消融(含 GT 视频的 100 场景基准):

配置 ATE↓ RotErr↓ PSNR↑ SSIM↑ LPIPS↓
无记忆 (Baseline*) 1.300 0.112 14.64 0.443 0.412
+GGM 0.699 0.067 17.45 0.532 0.288
+GGM+SSM (Full) 0.748 0.079 18.40 0.561 0.283

关键发现

  • GGM 主要提升粗粒度结构一致性和相机控制精度
  • SSM 主要保留细粒度纹理细节(如建筑立面、文字等)
  • 3D 对应关系(pointmap)对 SSM 的细节恢复至关重要
  • DMD 蒸馏后性能几乎无损,推理速度提升 20×

亮点与洞察

  1. Multi-Bi-Mem 范式:巧妙地避开了长序列生成的困局,保留了预训练 VDM 的泛化能力
  2. ControlNet 分支的解耦设计:使得 DMD 蒸馏无需联合训练,大幅简化加速流程
  3. 全景 3D 生成:框架天然支持从全景图输入的 3D 场景生成
  4. 新评测基准:提出了基于 Tanks-and-Temples 和 MipNeRF360 的 3D 重建基准

局限性 / 可改进方向

  • 训练数据需要高质量深度图对齐,限制了数据规模
  • 全景场景中某些正面朝前的场景需手动调整旋转角度
  • SSM 在单图输入的相机控制场景中略微降低了视觉质量
  • 目前仅支持 480p 训练,720p 需要推理时泛化

相关工作与启发

  • Uni3C: 基础相机引导 VDM,本文在此基础上扩展记忆机制
  • Dust3R/WorldMirror: 前馈式 3D 重建,用于构建 3D 缓存
  • VMem: 基于 surfel 索引的记忆机制,但缺乏几何对应信息
  • 立体匹配的思想启发了 SSM 的设计

评分

  • 新颖性: ⭐⭐⭐⭐ 多轨迹+记忆机制的设计思路新颖,GGM 和 SSM 互补设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 提出新基准、大量消融、定量定性全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法阐释到位
  • 价值: ⭐⭐⭐⭐ 在 3D 场景生成领域具有较好的实用价值,20× 加速令人印象深刻