Turbo3D: Ultra-Fast Text-to-3D Generation¶
会议: CVPR 2025
arXiv: 2412.04470
代码: https://turbo-3d.github.io/
领域: 3D视觉
关键词: 文本到3D生成, 扩散蒸馏, 多视图生成, 高斯泼溅, 高效推理
一句话总结¶
Turbo3D 通过双教师蒸馏将多步多视图扩散模型压缩为4步生成器,并引入潜空间 GS-LRM 重建器,在单张 A100 上仅需 0.35 秒即可从文本生成高质量 3D 高斯泼溅资产,同时在 CLIP Score 和 VQA Score 上超越现有方法。
研究背景与动机¶
领域现状:2D 图像生成领域已实现极快的推理速度(如一步/几步生成),但 3D 生成仍然很慢。当前文本到3D的方法主要分为两类:优化驱动方法(如 SDS)需要数分钟到数小时;前馈生成方法(如 Instant3D、LGM)虽然更快,但推理仍需数秒到十几秒,且质量受限。
现有痛点:多视图扩散模型在合成数据(Objaverse)上微调后,生成质量受限于合成数据的风格偏差,呈现过度简化、卡通化的外观。直接对多视图教师模型进行蒸馏会导致"复合模态坍缩"(compounding mode collapse),即微调和蒸馏的双重质量损失叠加,使生成结果进一步偏离真实照片风格。
核心矛盾:推理效率与生成质量之间存在严重的 trade-off。蒸馏能大幅提升速度,但会严重损害多视图一致性和照片真实感。
本文目标:(1) 将多步多视图扩散模型高效蒸馏为几步生成器,同时保持生成质量;(2) 进一步优化 3D 重建效率,消除不必要的解码步骤。
切入角度:作者观察到模态坍缩的根本原因是蒸馏过程中只有一个多视图教师,而该教师本身已偏向合成数据风格。引入一个在大规模高质量真实图像上训练的单视图教师,可以弥补照片真实感的缺失。
核心 idea:用双教师蒸馏(多视图教师教一致性 + 单视图教师教真实感)解决蒸馏质量退化问题,并将重建器从像素空间迁移到潜空间以消除 VAE 解码开销。
方法详解¶
整体框架¶
Turbo3D 是一个两阶段 pipeline:首先,一个 4 步多视图潜空间生成器从文本 prompt 生成 4 个视角的潜空间表示;然后,一个潜空间 GS-LRM 直接从这些多视图 latent 重建 3D 高斯泼溅表示。整个流程在单张 A100 GPU 上仅需 0.35 秒。
关键设计¶
-
双教师蒸馏(Dual-Teacher Distillation):
- 功能:将多步多视图扩散模型蒸馏为 4 步快速生成器,同时保持多视图一致性和照片真实感
- 核心思路:在 DMD(Distribution Matching Distillation)框架下引入两个教师。多视图教师(MV Teacher)通过联合计算所有视图的 DMD 损失来教授学生模型多视图一致性;单视图教师(SV Teacher)对每个视图独立计算 DMD 损失,将每个视图的生成质量拉向自然图像分布。最终损失为两者的加权组合:\(L_{\text{DMD}}^{\text{Dual}} = D_{\text{KL}}(p_{\text{fake}} \| p_{\text{real}}^{\text{MV}}) + \lambda \cdot \frac{1}{K}\sum_{i=1}^{K} D_{\text{KL}}(p_{\text{fake}} \| p_{\text{real}}^{\text{SV}})\),其中 \(\lambda=1\), \(K=4\)
- 设计动机:单独使用多视图教师蒸馏会导致严重的复合模态坍缩——MV 教师在 Objaverse 上微调时已丢失部分真实感,蒸馏进一步放大这一问题。SV 教师在大规模高质量自然图像上训练,能有效将每个视图"拉回"自然图像的分布
-
潜空间 GS-LRM(Latent GS-LRM):
- 功能:直接从多视图潜空间表示重建 3D 高斯,跳过 VAE 解码步骤
- 核心思路:将 GS-LRM 的输入从像素空间改为潜空间。由于多视图生成器输出的本身就是 latent(而非像素),直接将 latent 送入重建器可以省去 VAE 解码的计算开销,同时 transformer 的序列长度减半(因为 latent 分辨率是原图的 1/8)。训练时仍使用像素空间的 novel-view 渲染损失(L2 + 感知损失)进行监督
- 设计动机:VAE 解码器中的 Conv2D 操作在高分辨率下效率很差,跳过解码可直接获得约 22% 的速度提升,同时不影响重建质量
-
Plücker 坐标嵌入:
- 功能:为学生模型注入显式的 3D 相机感知信息
- 核心思路:在学生多视图生成器中加入 Plücker 射线嵌入作为额外条件,使生成器更好地理解不同视角之间的空间关系
- 设计动机:增强蒸馏后模型的 3D 一致性感知能力,弥补蒸馏过程中可能丢失的视角理解
损失函数 / 训练策略¶
训练分三阶段:(1) 在 Objaverse 上微调 DiT-based T2I 模型为多步多视图扩散模型(30K 迭代,32 A100);(2) 双教师蒸馏训练几步生成器(10K 迭代,32 A100);(3) 从头训练潜空间 GS-LRM 重建器(80K 迭代,32 A100)。数据集使用约 400K Objaverse 实例配合 Cap3D 文本标注。
实验关键数据¶
主实验¶
| 方法 | CLIP Score ↑ | VQA Score ↑ | 推理时间 ↓ |
|---|---|---|---|
| TripoSR | 23.85 | 0.57 | 1.19s |
| SV3D | 24.92 | 0.64 | 12.52s |
| Instant3D | 26.23 | 0.65 | 15.02s |
| LGM | 24.73 | 0.58 | 6.56s |
| Turbo3D | 27.61 | 0.76 | 0.35s |
消融实验¶
| 配置 | CLIP Score ↑ | VQA Score ↑ | 说明 |
|---|---|---|---|
| 多步 MV 模型(教师) | 28.04 | 0.77 | 完整教师模型,速度慢 |
| 几步模型(仅MV教师蒸馏) | 26.60 | 0.69 | 单教师蒸馏,质量大幅下降 |
| 几步模型(双教师蒸馏) | 27.61 | 0.76 | 双教师有效恢复质量 |
| Pixel GS-LRM | 27.62 / 0.76 | - | 0.45s |
| Latent GS-LRM | 27.61 / 0.76 | - | 0.35s,快22% |
关键发现¶
- 双教师蒸馏的效果显著:相比仅用 MV 教师蒸馏,CLIP Score 从 26.60 提升到 27.61,VQA Score 从 0.69 提升到 0.76,几乎追平教师模型
- 潜空间 GS-LRM 在不损失质量的前提下将推理时间从 0.45s 降到 0.35s
- 用户研究中,Turbo3D 对 LGM 的胜率为 89.8%,对 Instant3D 为 74.9%,对 MV 教师模型为 50.6%——说明蒸馏几乎无损地保留了教师的生成能力
- 蒸馏模型比教师模型快约 50 倍
亮点与洞察¶
- 双教师蒸馏框架非常巧妙:通过引入单视图教师来弥补多视图教师在真实感上的不足,从"互补"角度解决了复合模态坍缩问题。这种思想可以迁移到所有涉及领域迁移蒸馏的场景
- 潜空间重建的思路很实用:既然生成器输出已经是 latent,就不需要先解码再编码给重建器,直接在潜空间传递既省时间又保信息。这种"省掉中间步骤"的思维值得在其他 pipeline 中借鉴
- 整个系统的工程优化非常到位:4步生成 + 1步重建,端到端 0.35 秒完成从文本到3D的生成
局限与展望¶
- 训练数据仅限于 Objaverse 的 400K 实例,生成的多样性和真实感受限于这个相对有限的 3D 数据集
- 生成的 3D 资产以高斯泼溅表示,尚未直接输出网格或其他更通用的 3D 格式
- 4步的多视图生成是否能进一步压缩到1-2步,或者能否在保持质量的前提下提升分辨率,值得探索
- 当前只支持以物体为中心的生成,对复杂场景的支持有限
相关工作与启发¶
- vs Instant3D: 同样采用多视图生成+重建的范式,但 Instant3D 需要 15 秒推理,Turbo3D 快约 40 倍。Instant3D 的文本对齐能力也弱于 Turbo3D
- vs LGM: LGM 易出现 Janus 问题和质量不稳定,Turbo3D 通过多视图扩散模型避免了这些问题
- vs GECO: 同期工作也使用扩散蒸馏加速,但 GECO 依赖繁琐的网格重建进行 3D 蒸馏,Turbo3D 的 pipeline 更简洁
评分¶
- 新颖性: ⭐⭐⭐⭐ 双教师蒸馏是核心创新,潜空间重建是自然但有效的优化
- 实验充分度: ⭐⭐⭐⭐ 定量+定性+用户研究+消融均完整
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述简洁明了
- 价值: ⭐⭐⭐⭐⭐ 将3D生成速度推入亚秒级,实用价值极高
相关论文¶
- [ECCV 2024] TPA3D: Triplane Attention for Fast Text-to-3D Generation
- [CVPR 2025] PreciseCam: Precise Camera Control for Text-to-Image Generation
- [CVPR 2025] Compass Control: Multi Object Orientation Control for Text-to-Image Generation
- [CVPR 2025] PrEditor3D: Fast and Precise 3D Shape Editing
- [CVPR 2025] Instant3dit: Multiview Inpainting for Fast Editing of 3D Objects