Bolt3D: Generating 3D Scenes in Seconds¶
会议: ICCV 2025
arXiv: 2503.14445
代码: szymanowiczs.github.io/bolt3d (项目主页,代码未开源)
领域: 3D视觉 / 3D场景生成 / 新视角合成
关键词: 潜在扩散模型, 3D高斯表示, 前馈式生成, 几何VAE, Splatter Image
作者: Stanislaw Szymanowicz, Jason Y. Zhang, Pratul Srinivasan, Ruiqi Gao, Arthur Brussee, Aleksander Hołyński, Ricardo Martin-Brualla, Jonathan T. Barron, Philipp Henzler (Google Research / Oxford)
一句话总结¶
提出一种基于潜在扩散模型的前馈式3D场景生成方法,通过将3D场景表示为多组Splatter Image并使用专门训练的几何VAE,在单GPU上7秒内生成完整3D场景,推理成本比优化式方法(CAT3D)降低300倍。
背景与动机¶
- 2D生成模型无法直接输出3D场景:现有图像/视频生成模型产出2D内容,无法用于交互式可视化和编辑
- 3D数据极度稀缺:相比海量2D图像数据,"真实3D场景"数据非常有限,直接训练3D生成模型困难
- 现有3D生成方法效率低下:
- 基于多视角扩散+逐场景优化的方法(如CAT3D):生成800张图 → 再优化3DGS/NeRF,需分钟级甚至小时级
- 前馈回归方法(Flash3D, DepthSplat):速度快但无法处理歧义性(unseen区域模糊)
- 前馈生成方法(LatentSplat, Wonderland):要么限于单类别,要么依赖视频模型速度慢(5分钟/场景)
- 核心矛盾:如何在保持高质量3D生成的同时实现秒级推理?
核心问题¶
如何设计一个直接输出可渲染3D场景表示的扩散模型,同时:(1) 利用成熟的2D扩散架构保持可扩展性和泛化能力;(2) 准确建模3D几何而非仅生成2D图像;(3) 处理未观测区域的歧义性?
方法详解¶
整体框架¶
Bolt3D 采用两阶段前馈管线: 1. 多视角潜在扩散模型:接收1-4张带位姿的输入图像 + 目标相机位姿 → 联合去噪生成16个视角的外观潜码 + 几何潜码 2. VAE解码:外观潜码用预训练图像VAE解码为RGB图像,几何潜码用专门训练的几何VAE解码为pointmap(逐像素3D坐标) 3. Gaussian Head:接收解码后的图像、pointmap和相机位姿 → 前馈预测每个像素对应3D Gaussian的不透明度、协方差矩阵和精修颜色 → 形成Splatter Image 4. 所有Splatter Image合并为完整的3D Gaussian场景
关键设计¶
- 分解采样策略(Factorized Sampling):
- 将3D Gaussian参数分解为两部分:颜色+3D位置由扩散模型生成(可直接从图像+SfM获取监督),不透明度+协方差由确定性Gaussian Head预测(用渲染损失监督)
-
动机:颜色和3D位置可从密集SfM获取伪真值,而不透明度和协方差的直接监督难以获得;但给定颜色和位置后,后者的歧义性大幅降低
-
几何变分自编码器(Geometry VAE):
- 编码器:卷积结构,输入pointmap(3D坐标图)+ camera raymap(6D射线图),编码为64×64×8的潜码
- 解码器:采用Transformer架构(ViT-B, 12层, 768维, patch size 2, 序列长度1024),而非传统卷积解码器
- 关键发现:预训练图像VAE完全不适用于几何数据——在unbounded真实场景上灾难性失败(AbsRel从0.67%暴涨到15-18%)
- 训练损失:重建损失(带距离加权)+ KL散度 + 梯度损失(提升边界清晰度)
-
分辨率:256×256训练3M iterations → 512×512微调250k iterations
-
多视角几何潜在扩散模型:
- 从预训练的多视角图像扩散模型(CAT3D)初始化,扩展输入通道以接受几何潜码(8D图像潜码 + 8D几何潜码 + 6D相机raymap + 1D条件掩码 = 23D输入)
- 使用v-参数化和v-prediction损失
- U-Net架构,在32×32及以下特征图上使用全3D注意力
-
先在8视角上训练700k iterations,再在16视角上微调70k iterations
-
Gaussian Head(高斯头网络):
- 多视角设计:使用U-ViT架构,8个视角作为输入,通过cross-attention实现跨视角信息交互(决定可见性→调节不透明度)
- 4× patchification → Transformer块(3层, 128维, 8头)→ unpatchify
- 输出:3通道颜色 + 3通道尺寸 + 4通道旋转 + 1通道不透明度
- 训练:L2光度损失 + LPIPS感知损失(权重0.05)
损失函数 / 训练策略¶
三阶段训练:
| 阶段 | 内容 | 训练量 |
|---|---|---|
| Stage 1: Geometry VAE | 256×256训练 → 512×512微调 | 3M + 250k iter |
| Stage 2: Gaussian Head | 给定GT颜色和自编码几何 → 渲染损失 | 100k iter |
| Stage 3: 潜在扩散模型 | 从CAT3D初始化 → 8视角 → 16视角 | 700k + 70k iter |
数据: - 对CO3D、MVImg、RealEstate10K、DL3DV-7K共约30万场景运行MASt3R获取稠密3D伪真值 - 额外使用合成数据(Objaverse + 内部物体数据集),合成:真实 = 1:2 - 几何VAE损失加权方案:远离场景中心的点赋予更低权重(\(w = \max(1, d^2)\))
实验关键数据¶
对比前馈回归方法¶
| 数据集 | 设置 | 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ |
|---|---|---|---|---|---|---|
| RE10K | 1-view | Flash3D | 17.40 | 0.699 | 0.419 | 96.9 |
| RE10K | 1-view | Bolt3D | 21.03 | 0.805 | 0.257 | 55.5 |
| CO3D | 1-view | Flash3D | 14.43 | 0.552 | 0.608 | 174.8 |
| CO3D | 1-view | Bolt3D | 16.78 | 0.562 | 0.505 | 97.5 |
| DL3DV | 2-view | DepthSplat | 16.25 | 0.515 | 0.465 | 95.9 |
| DL3DV | 2-view | Bolt3D | 17.75 | 0.551 | 0.392 | 64.5 |
| DL3DV | 4-view | DepthSplat | 19.48 | 0.638 | 0.327 | 58.8 |
| DL3DV | 4-view | Bolt3D | 20.64 | 0.653 | 0.310 | 48.2 |
→ 在1-view设置上提升最大(PSNR +3.63 dB),验证了生成式方法在歧义性建模上的优势。
对比前馈3D生成方法¶
| 数据集 | 设置 | 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|---|
| RE10K | 1-view | Wonderland | 17.15 | 0.550 | 0.292 |
| RE10K | 1-view | Bolt3D | 21.54 | 0.747 | 0.234 |
| RE10K | 2-view | LatentSplat | 22.62 | 0.777 | 0.196 |
| RE10K | 2-view | Bolt3D | 23.13 | 0.806 | 0.166 |
→ Wonderland使用视频模型需5分钟/场景,Bolt3D仅需6秒。
对比优化式方法(速度-质量权衡)¶
| 数据集 | 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ | gpu-min↓ |
|---|---|---|---|---|---|---|
| RE10K | CAT3D | 29.56 | 0.937 | 0.134 | 13.75 | 77.28 |
| RE10K | Bolt3D | 27.00 | 0.905 | 0.154 | 27.40 | 0.25 |
| LLFF | CAT3D | 22.06 | 0.745 | 0.194 | 37.54 | 80.00 |
| LLFF | Bolt3D | 18.75 | 0.562 | 0.341 | 96.61 | 0.25 |
| DTU | CAT3D | 19.97 | 0.809 | 0.202 | 41.76 | 72.00 |
| DTU | Bolt3D | 18.59 | 0.738 | 0.312 | 67.49 | 0.25 |
→ 质量略低于CAT3D(PSNR差1-3 dB),但推理成本降低约300×(0.25 vs 72-80 gpu-min)。
消融实验要点¶
- 几何VAE消融:
- 移除编码器训练 → AbsRel从0.67%升至1.63%
- 移除距离加权 → δ₁.₀₁从81.5%降至56.7%
-
移除梯度损失 → 重投影误差升至2.96
-
Gaussian Head消融:
- 移除cross-attention → PSNR从24.88降至23.80
- 完全移除Gaussian Head → PSNR降至21.94
- 从渲染损失学习XYZ → PSNR降至21.88(不如显式几何监督)
-
移除射线裁剪 → PSNR降至20.78
-
图像VAE vs 几何VAE:
- 预训练图像VAE + 均值深度缩放 → 真实数据AbsRel=17.9%
- 专用几何VAE(本文)→ 真实数据AbsRel=0.67%(提升26×)
- 关键结论:图像VAE对bounded合成数据"凑合能用",但对unbounded真实场景彻底失败
亮点¶
- 极致的速度-质量权衡:H100上6.25秒(A100上15秒)即可生成完整3D场景,比CAT3D快300×,质量差距可接受
- 几何VAE的开创性分析:首次系统研究了3D几何数据的VAE设计,发现Transformer解码器比卷积解码器更适合几何数据(卷积产生弯曲伪影),且图像预训练VAE无法迁移到无界几何
- 分解采样的巧妙设计:把"可直接监督的"(颜色+位置)和"需要渲染损失的"(不透明度+协方差)分开处理,既利用了大规模SfM数据,又避免了不透明度/协方差的标注难题
- 2D扩散架构复用:将3D生成问题转化为多个2D Splatter Image的联合生成问题,复用了高度成熟的2D扩散架构和预训练权重
- 大规模伪真值数据构建:对30万场景运行MASt3R建立大规模几何数据集,解决了3D数据稀缺的瓶颈
局限性 / 可改进方向¶
- 薄结构处理困难:宽度小于8像素的结构(因几何VAE 8×下采样)难以重建
- 透明/高光表面失效:SfM在非朗伯表面上几何重建不准,影响训练数据质量
- 相机路径敏感:对目标相机的上方向和场景尺度敏感,需要更好的数据增强
- 视角数量受限:仅生成16个Splatter Image(vs CAT3D的800个),场景覆盖不完整 → 质量瓶颈
- 仅支持静态场景:未来可结合多视角视频扩散模型生成动态3D
- 深度 vs pointmap:本文选择压缩pointmap,但并发工作显示深度可能更优,值得探索
- FID指标较弱:在RE10K上FID为27.40(CAT3D为13.75),分布级别的视觉质量仍有差距
与相关工作的对比¶
| 方法 | 类型 | 3D表示 | 推理时间 | 输入 | 质量 |
|---|---|---|---|---|---|
| Flash3D | 前馈回归 | 3DGS | ~秒 | 1-view | 未见区域模糊 |
| DepthSplat | 前馈回归 | 3DGS | ~秒 | 2-4 view | 需特征匹配 |
| LatentSplat | 前馈生成(VAE-GAN) | 3DGS | ~秒 | 2-view | 限于单类别/低分辨 |
| Wonderland | 视频模型+3DGS | 3DGS | ~5分钟 | 1-view | 无显式几何模型 |
| CAT3D | 多视角扩散+优化 | 3DGS/NeRF | ~5分钟(16GPU) | 1-3 view | 高质量但超慢 |
| Bolt3D | 潜在扩散(前馈) | 3DGS | ~7秒(1GPU) | 1-4 view | 接近CAT3D |
核心区别:Bolt3D首次实现了"扩散模型直接输出3DGS"的端到端前馈范式,不需要后续优化。
启发与关联¶
- 与"扩散增强稀疏视角3DGS"idea的关联:本文的Geometry VAE + 扩散采样 → 直接输出pointmap的范式,可以与开放词汇语义结合(参考 20260317_diffusion_view_augment_3dgs),在生成3D外观+几何的同时生成语义特征
- 几何VAE的通用价值:本文证明了专用几何VAE(特别是Transformer解码器)对无界场景的必要性。这一组件可以迁移到其他需要潜在空间编码几何的任务(如3D补全、4D生成、机器人操作中的场景重建)
- 分解采样的思想可推广:将"可直接监督的量"和"需渲染监督的量"分开建模的思路,适用于任何需要从不完美监督中学习的3D生成任务
- 数据角度的启示:通过对已有多视角数据集运行SfM构建30万场景规模的几何数据集,这种"用计算换数据"的策略对3D领域意义重大
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将潜在扩散模型与专用几何VAE结合实现秒级3D场景生成,分解采样策略巧妙;但核心组件(Splatter Image、多视角扩散)均为已有工作
- 实验充分度: ⭐⭐⭐⭐⭐ 三类方法的全面对比(回归/前馈生成/优化式),5个数据集,详细的VAE消融和Gaussian Head消融,低分辨率公平对比
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,动机明确,图表丰富(交互式viewer),补充材料详尽
- 价值: ⭐⭐⭐⭐⭐ 将3D场景生成从分钟级推向秒级,300×加速具有重大实用价值;几何VAE的分析为后续工作提供了重要指导