跳转至

Turbo3D: Ultra-Fast Text-to-3D Generation

会议: CVPR 2025
arXiv: 2412.04470
代码: https://turbo-3d.github.io/
领域: 3D视觉
关键词: 文本到3D生成, 扩散蒸馏, 多视图生成, 高斯泼溅, 高效推理

一句话总结

Turbo3D 通过双教师蒸馏将多步多视图扩散模型压缩为4步生成器,并引入潜空间 GS-LRM 重建器,在单张 A100 上仅需 0.35 秒即可从文本生成高质量 3D 高斯泼溅资产,同时在 CLIP Score 和 VQA Score 上超越现有方法。

研究背景与动机

领域现状:2D 图像生成领域已实现极快的推理速度(如一步/几步生成),但 3D 生成仍然很慢。当前文本到3D的方法主要分为两类:优化驱动方法(如 SDS)需要数分钟到数小时;前馈生成方法(如 Instant3D、LGM)虽然更快,但推理仍需数秒到十几秒,且质量受限。

现有痛点:多视图扩散模型在合成数据(Objaverse)上微调后,生成质量受限于合成数据的风格偏差,呈现过度简化、卡通化的外观。直接对多视图教师模型进行蒸馏会导致"复合模态坍缩"(compounding mode collapse),即微调和蒸馏的双重质量损失叠加,使生成结果进一步偏离真实照片风格。

核心矛盾:推理效率与生成质量之间存在严重的 trade-off。蒸馏能大幅提升速度,但会严重损害多视图一致性和照片真实感。

本文目标:(1) 将多步多视图扩散模型高效蒸馏为几步生成器,同时保持生成质量;(2) 进一步优化 3D 重建效率,消除不必要的解码步骤。

切入角度:作者观察到模态坍缩的根本原因是蒸馏过程中只有一个多视图教师,而该教师本身已偏向合成数据风格。引入一个在大规模高质量真实图像上训练的单视图教师,可以弥补照片真实感的缺失。

核心 idea:用双教师蒸馏(多视图教师教一致性 + 单视图教师教真实感)解决蒸馏质量退化问题,并将重建器从像素空间迁移到潜空间以消除 VAE 解码开销。

方法详解

整体框架

Turbo3D 是一个两阶段 pipeline:首先,一个 4 步多视图潜空间生成器从文本 prompt 生成 4 个视角的潜空间表示;然后,一个潜空间 GS-LRM 直接从这些多视图 latent 重建 3D 高斯泼溅表示。整个流程在单张 A100 GPU 上仅需 0.35 秒。

关键设计

  1. 双教师蒸馏(Dual-Teacher Distillation):

    • 功能:将多步多视图扩散模型蒸馏为 4 步快速生成器,同时保持多视图一致性和照片真实感
    • 核心思路:在 DMD(Distribution Matching Distillation)框架下引入两个教师。多视图教师(MV Teacher)通过联合计算所有视图的 DMD 损失来教授学生模型多视图一致性;单视图教师(SV Teacher)对每个视图独立计算 DMD 损失,将每个视图的生成质量拉向自然图像分布。最终损失为两者的加权组合:\(L_{\text{DMD}}^{\text{Dual}} = D_{\text{KL}}(p_{\text{fake}} \| p_{\text{real}}^{\text{MV}}) + \lambda \cdot \frac{1}{K}\sum_{i=1}^{K} D_{\text{KL}}(p_{\text{fake}} \| p_{\text{real}}^{\text{SV}})\),其中 \(\lambda=1\), \(K=4\)
    • 设计动机:单独使用多视图教师蒸馏会导致严重的复合模态坍缩——MV 教师在 Objaverse 上微调时已丢失部分真实感,蒸馏进一步放大这一问题。SV 教师在大规模高质量自然图像上训练,能有效将每个视图"拉回"自然图像的分布
  2. 潜空间 GS-LRM(Latent GS-LRM):

    • 功能:直接从多视图潜空间表示重建 3D 高斯,跳过 VAE 解码步骤
    • 核心思路:将 GS-LRM 的输入从像素空间改为潜空间。由于多视图生成器输出的本身就是 latent(而非像素),直接将 latent 送入重建器可以省去 VAE 解码的计算开销,同时 transformer 的序列长度减半(因为 latent 分辨率是原图的 1/8)。训练时仍使用像素空间的 novel-view 渲染损失(L2 + 感知损失)进行监督
    • 设计动机:VAE 解码器中的 Conv2D 操作在高分辨率下效率很差,跳过解码可直接获得约 22% 的速度提升,同时不影响重建质量
  3. Plücker 坐标嵌入:

    • 功能:为学生模型注入显式的 3D 相机感知信息
    • 核心思路:在学生多视图生成器中加入 Plücker 射线嵌入作为额外条件,使生成器更好地理解不同视角之间的空间关系
    • 设计动机:增强蒸馏后模型的 3D 一致性感知能力,弥补蒸馏过程中可能丢失的视角理解

损失函数 / 训练策略

训练分三阶段:(1) 在 Objaverse 上微调 DiT-based T2I 模型为多步多视图扩散模型(30K 迭代,32 A100);(2) 双教师蒸馏训练几步生成器(10K 迭代,32 A100);(3) 从头训练潜空间 GS-LRM 重建器(80K 迭代,32 A100)。数据集使用约 400K Objaverse 实例配合 Cap3D 文本标注。

实验关键数据

主实验

方法 CLIP Score ↑ VQA Score ↑ 推理时间 ↓
TripoSR 23.85 0.57 1.19s
SV3D 24.92 0.64 12.52s
Instant3D 26.23 0.65 15.02s
LGM 24.73 0.58 6.56s
Turbo3D 27.61 0.76 0.35s

消融实验

配置 CLIP Score ↑ VQA Score ↑ 说明
多步 MV 模型(教师) 28.04 0.77 完整教师模型,速度慢
几步模型(仅MV教师蒸馏) 26.60 0.69 单教师蒸馏,质量大幅下降
几步模型(双教师蒸馏) 27.61 0.76 双教师有效恢复质量
Pixel GS-LRM 27.62 / 0.76 - 0.45s
Latent GS-LRM 27.61 / 0.76 - 0.35s,快22%

关键发现

  • 双教师蒸馏的效果显著:相比仅用 MV 教师蒸馏,CLIP Score 从 26.60 提升到 27.61,VQA Score 从 0.69 提升到 0.76,几乎追平教师模型
  • 潜空间 GS-LRM 在不损失质量的前提下将推理时间从 0.45s 降到 0.35s
  • 用户研究中,Turbo3D 对 LGM 的胜率为 89.8%,对 Instant3D 为 74.9%,对 MV 教师模型为 50.6%——说明蒸馏几乎无损地保留了教师的生成能力
  • 蒸馏模型比教师模型快约 50 倍

亮点与洞察

  • 双教师蒸馏框架非常巧妙:通过引入单视图教师来弥补多视图教师在真实感上的不足,从"互补"角度解决了复合模态坍缩问题。这种思想可以迁移到所有涉及领域迁移蒸馏的场景
  • 潜空间重建的思路很实用:既然生成器输出已经是 latent,就不需要先解码再编码给重建器,直接在潜空间传递既省时间又保信息。这种"省掉中间步骤"的思维值得在其他 pipeline 中借鉴
  • 整个系统的工程优化非常到位:4步生成 + 1步重建,端到端 0.35 秒完成从文本到3D的生成

局限与展望

  • 训练数据仅限于 Objaverse 的 400K 实例,生成的多样性和真实感受限于这个相对有限的 3D 数据集
  • 生成的 3D 资产以高斯泼溅表示,尚未直接输出网格或其他更通用的 3D 格式
  • 4步的多视图生成是否能进一步压缩到1-2步,或者能否在保持质量的前提下提升分辨率,值得探索
  • 当前只支持以物体为中心的生成,对复杂场景的支持有限

相关工作与启发

  • vs Instant3D: 同样采用多视图生成+重建的范式,但 Instant3D 需要 15 秒推理,Turbo3D 快约 40 倍。Instant3D 的文本对齐能力也弱于 Turbo3D
  • vs LGM: LGM 易出现 Janus 问题和质量不稳定,Turbo3D 通过多视图扩散模型避免了这些问题
  • vs GECO: 同期工作也使用扩散蒸馏加速,但 GECO 依赖繁琐的网格重建进行 3D 蒸馏,Turbo3D 的 pipeline 更简洁

评分

  • 新颖性: ⭐⭐⭐⭐ 双教师蒸馏是核心创新,潜空间重建是自然但有效的优化
  • 实验充分度: ⭐⭐⭐⭐ 定量+定性+用户研究+消融均完整
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述简洁明了
  • 价值: ⭐⭐⭐⭐⭐ 将3D生成速度推入亚秒级,实用价值极高

相关论文