WonderTurbo: Generating Interactive 3D World in 0.72 Seconds¶

会议: ICCV 2025
arXiv: 2504.02261
代码: https://github.com/GigaAI-research/WonderTurbo
领域: 3D视觉
关键词: 实时3D场景生成、高斯溅射、深度补全、扩散蒸馏、交互式生成

一句话总结¶

WonderTurbo 提出首个实时交互式3D场景生成框架，通过 StepSplat（前馈式3DGS）、QuickDepth（轻量深度补全）和 FastPaint（2步扩散修复）三个模块协同加速，将单次场景扩展时间从 10+ 秒压缩到 0.72 秒，实现 15 倍加速的同时保持了与 WonderWorld 相当的生成质量。

研究背景与动机¶

领域现状：从单张图像交互式生成3D场景（online 3D scene generation）是沉浸式虚拟体验的核心技术。现有方法分为离线和在线两类：离线方法如 LucidDreamer、Text2Room 先生成多视角图像再优化3D表示，在线方法如 WonderJourney、WonderWorld 支持用户逐步交互式创建场景。

现有痛点：即便是当前最快的在线方法 WonderWorld，生成一个新视角仍需约 10 秒，远不能满足实时交互的需求。效率瓶颈主要来自两方面：(1) 几何建模依赖 3DGS 的逐场景迭代优化，需要数百次迭代；(2) 外观建模依赖扩散模型进行图像修复（inpainting），需要数十步推理。

核心矛盾：3D场景生成的质量要求与实时性要求之间存在严重矛盾——高质量的几何和外观建模都需要大量计算，而交互式场景要求亚秒级响应。

本文目标：设计一个能在 1 秒以内完成一次场景扩展的完整框架，同时几何和外观质量不能明显下降。具体分解为三个子问题——如何加速几何建模、如何提供一致的深度先验、如何加速外观修复。

切入角度：作者观察到前馈式3DGS方法（如 MVSplat、PixelSplat）可以跳过迭代优化直接推理高斯参数，但它们不支持视角逐步增加的交互场景；扩散模型的蒸馏技术可以将推理步数压缩到极少步。这两个方向结合起来可以同时解决几何和外观的效率瓶颈。

核心 idea：用前馈式3DGS + 特征记忆实现增量式几何建模，用轻量深度补全提供一致深度先验，用2步蒸馏扩散完成即时外观修复，三者组合实现 0.72 秒的实时3D交互。

方法详解¶

整体框架¶

WonderTurbo 的流水线工作如下：用户移动相机到新位置后，系统首先渲染当前3D场景得到图像 \(I_{render}^i\) 和深度图 \(D_{render}^i\)。然后 FastPaint 接收渲染图像和用户文本，生成新区域的外观 \(I_{target}^i\)（0.22秒）；QuickDepth 接收渲染深度和新外观图像，补全新区域的深度 \(D_{target}^i\)（0.24秒）；最后 StepSplat 将新图像和深度转化为局部高斯表示，并增量融合到全局3D场景中（0.26秒）。总计 0.72 秒完成一次场景扩展。

关键设计¶

StepSplat — 增量式前馈3DGS:
- 功能：在 0.26 秒内将新视角的图像和深度转化为3D高斯表示，并融合到全局场景
- 核心思路：StepSplat 采用 RepVGG 作为骨干网络提取匹配特征 \(F_m^i\) 和图像特征 \(F_e^i\)。引入特征记忆（Feature Memory）存储历史视角的匹配特征和位姿。对于新视角，根据位姿距离 \(d(P_n, P_i) = \|P_n - P_i\|_2\) 选取最近的 \(N_v\) 个邻近视角，利用 QuickDepth 提供的深度图在深度范围 \(R = \{d \mid (1-a) \cdot D_{target}^i \leq d \leq (1+a) \cdot D_{target}^i\}\) 内均匀采样 \(N_d\) 个深度候选值，通过平面扫描立体算法将邻近特征 warp 到当前视角，计算归一化点积相关性构建代价体 \(S^i\)。最终通过 softmax 加权平均得到深度预测 \(\hat{d} = \text{softmax}(S^i) \cdot d\)，深度值反投影为高斯中心。增量融合策略通过深度一致性约束 \(|d_{local} - d_j^g| < \delta \cdot d_{local}\) 去除冲突高斯，将有效的局部高斯合并到全局表示
- 设计动机：传统3DGS需要数百次迭代优化，而前馈方法直接推理高斯参数但不支持视角逐步增加。StepSplat 通过保持特征记忆并自适应构建代价体，将前馈范式扩展到交互式场景。深度引导的代价体确保了几何精度，增量融合减少了冗余高斯导致的浮点问题
QuickDepth — 轻量深度补全:
- 功能：在 0.24 秒内为新生成区域补全完整深度图，提供一致的深度先验
- 核心思路：以轻量深度估计模型（Depth Anything）初始化，输入目标帧的 RGB 图像、不完整深度图和二值掩码，预测完整深度。训练数据通过相邻帧的几何投影关系构造——将前一帧深度图 \(D_{j-1}\) 通过相对位姿 \(T_{j-1 \to j}\) 投影到当前帧坐标系，得到不完整深度 \(D'_{j-1 \to j}\) 和有效性掩码 \(M_{j-1 \to j}\)，使用 \(L_1\) 损失监督
- 设计动机：现有深度补全方法主要针对稀疏深度补全（如LiDAR），难以处理3D场景生成中大面积无深度信息的情况。WonderWorld 的引导深度扩散方法需要 3 秒以上。QuickDepth 专门针对交互式3D生成的掩码模式训练，泛化能力强
FastPaint — 2步扩散修复:
- 功能：在 0.22 秒内完成图像修复，为新区域生成外观
- 核心思路：对预训练的 Stable Diffusion Inpainting 模型进行知识蒸馏，结合 ODE 轨迹保持和重构策略，将推理步数从数十步压缩到仅 2 步。同时在模拟交互式3D生成掩码模式的数据集上微调，使修复区域与3D场景生成的实际掩码分布对齐
- 设计动机：原始扩散修复模型需要约 20-50 步推理，且微调时使用的掩码分布与3D生成场景不同，导致修复质量下降或需要额外VLM验证。FastPaint 通过蒸馏和针对性微调同时解决了速度和质量问题

训练数据构建¶

作者利用多种3D场景生成方法（WonderJourney、WonderWorld、Text2Room、LucidDreamer 等）构建了包含超过 600 万帧的训练数据集，涵盖室内环境（32%）、城市景观（28%）、自然地形（25%）和风格化艺术场景（15%），通过模拟交互式轨迹（旋转、线性、混合）生成训练数据，并使用 VLM 验证数据质量。

实验关键数据¶

主实验¶

方法	类型	几何建模(s)	外观建模(s)	总时间(s)
LucidDreamer	Offline	35.38	8.32	43.70
Text2Room	Offline	34.23	7.32	41.55
Pano2Room	Offline	27.91	1.47	29.38
DreamScene360	Offline	44.29	1.45	45.74
WonderJourney	Online	78.12	1.45	79.57
WonderWorld	Online	6.62	4.43	11.05
WonderTurbo	Online	0.50	0.22	0.72

方法	CS↑	CC↑	CIQA↑	Q-Align↑	CA↑
LucidDreamer	27.72	0.9213	0.6023	3.5439	6.8231
Text2Room	24.50	0.9035	0.4910	2.6732	6.5324
WonderJourney	27.63	0.9652	0.4753	3.5272	7.0134
WonderWorld	28.14	0.9654	0.6764	3.7823	7.2121
WonderTurbo	28.65	0.9732	0.6812	3.7253	7.3243

消融实验¶

配置	CS↑	CC↑	CIQA↑	Q-Align↑	CA↑
w/ FreeSplat	27.65	0.9542	0.6460	3.1543	6.6235
w/ DepthSplat	27.32	0.9675	0.6620	3.2145	6.7432
w/o depth guided	27.72	0.9532	0.6359	3.4361	7.1734
w/o incremental fusion	27.87	0.9654	0.6459	3.5431	7.2734
w/o FastPaint	27.82	0.9683	0.6574	3.7146	7.2136
WonderTurbo (full)	28.65	0.9732	0.6812	3.7253	7.3243

关键发现¶

StepSplat 相比 FreeSplat 和 DepthSplat 有显著优势，尤其在 Q-Align（+0.57/+0.51）和 CLIP aesthetic（+0.70/+0.58）上，说明深度引导的代价体对几何精度至关重要
去掉深度引导的代价体后掉点最严重（CS 下降 0.93，CC 下降 0.020），这是因为没有深度先验时代价体搜索范围过大，导致几何不准确
用户研究中 WonderTurbo 对比 WonderWorld 的胜率达 69.43%，对比其他方法胜率均超过 94%，说明在 15 倍加速下用户感知质量几乎没有下降
FastPaint 的贡献主要体现在 CS（+0.83）和 CIQA（+0.124）上，说明针对性微调提升了修复区域与文本的语义一致性

亮点与洞察¶

前馈范式 + 特征记忆的结合非常巧妙：通过保持历史视角的匹配特征而非原始图像，既利用了前馈推理的速度优势，又实现了类似迭代优化的多视角信息融合。这个设计可以迁移到任何需要增量式3D重建的场景
深度引导代价体的设计：用 QuickDepth 的深度预测作为 prior 来缩小代价体的深度搜索范围，是 MVS 中经典的 coarse-to-fine 思想在交互式生成中的优雅应用。只需在深度预测 ±a 范围内搜索，大幅减少计算量同时提升精度
训练数据的构建策略值得借鉴：利用多种现有3D生成方法的互补优势来构建训练数据，VLM 验证质量，这种 "用旧方法的输出训练新方法" 的bootstrap策略在数据稀缺时非常实用

局限与展望¶

代码尚未完全开源，GitHub 仓库为 placeholder，难以复现和验证
0.72 秒虽然接近实时，但距离真正的 30fps 实时交互还有差距（需要 33ms 以内），在 VR/AR 等高帧率场景中仍不够
训练数据依赖其他3D生成方法的输出，数据质量受限于这些方法的能力上限
用户研究虽然胜率高，但缺少对几何精度的定量评估（如点云精度、mesh质量）
FastPaint 基于蒸馏，在复杂纹理和精细细节上可能不如完整推理步数的扩散模型

评分¶

新颖性: ⭐⭐⭐⭐ 三个模块的组合创新扎实，但各模块本身的技术贡献相对增量
实验充分度: ⭐⭐⭐⭐ 定量对比、消融实验和用户研究齐全，但缺少几何精度的定量评估
写作质量: ⭐⭐⭐⭐ 结构清晰，pipeline 描述易于理解，公式推导规范
价值: ⭐⭐⭐⭐⭐ 实时交互式3D生成是强刚需，15 倍加速的工程价值极高