跳转至

LT3SD: Latent Trees for 3D Scene Diffusion

会议: CVPR 2025
arXiv: 2409.08215
代码: https://quan-meng.github.io/projects/lt3sd
领域: 3d_vision
关键词: 3D scene generation, latent diffusion, latent tree, TUDF, coarse-to-fine, patch-based, unconditional generation

一句话总结

提出 LT3SD,将 3D 场景渐进分解为潜在树(每层包含几何体积 + 高频潜在特征体积),在此表征上训练基于 patch 的扩散模型,实现从粗到细、逐 patch 的高质量无限 3D 场景生成,FID 相对 SOTA 提升 70%。

研究背景与动机

领域现状: 扩散模型在 2D 图像生成上取得突破,3D 扩散模型主要集中在物体级生成。3D 场景因几何复杂度高、数据量少、空间尺度不定,生成难度远大于物体。

现有痛点: (1) 物体级 3D 扩散(PVD、NFD)假设形状在规范化空间中,使用全局潜在码/三平面等紧凑表征,无法扩展到非结构化的场景;(2) 三平面表征(BlockFusion)的三个平面高度耦合,场景外推需要复杂的同步处理;(3) 现有场景生成方法(SSG、SemCity)局限于低分辨率或语义场景,几何细节不足。

核心矛盾: 3D 场景信号高度不均匀(大量空白区域 + 表面附近集中细节),需要一种表征能高效编码从全局结构到局部细节的多尺度信息。

本文切入角度: 设计分层潜在树表征,将场景在多个分辨率级别分解为互补的几何(低频)和潜在特征(高频)编码,天然支持从粗到细的逐 patch 生成。

方法详解

整体框架

两阶段: 1. 潜在树编码(Stage 1): 学习编码器/解码器将 3D 场景 TUDF grid 渐进分解为多层潜在树 2. 基于 Patch 的潜在扩散(Stage 2): 在潜在树的每个分辨率层上训练条件扩散模型

关键设计

1. 潜在树表征(Latent Tree Representation) - 功能: 将高分辨率 3D 场景 TUDF grid 渐进分解为 N 层树,每层 \(i\) 包含几何体积 \(L_i^s\)(TUDF)和潜在特征体积 \(H_i^s\)。 - 核心机制: 3D CNN 编码器将高分辨率 patch \(L_{i+1}\) 分解为低分辨率 TUDF \(L_i\)(通过平均池化下采样)和潜在特征 \(H_i\)(CNN 预测): $\(\mathcal{E}_{i+1}(L_{i+1}) \Rightarrow [L_i, H_i]\)$ 3D CNN 解码器从 \(L_i\)\(H_i\) 重建高分辨率 TUDF: $\(\mathcal{D}_{i+1}([L_i, H_i]) \Rightarrow L_{i+1}\)$ - 优于替代方案: 对比级联潜在模型(Cascaded Model),潜在树以更少存储(×0.80)、更快训练(×0.87)和更低重建误差(3.20 vs 4.91 ×10⁻⁴)胜出,因为级联模型在每层独立建模冗余信息。

2. 基于 Patch 的条件扩散 - 功能: 在潜在树每层训练 3D UNet 扩散模型,从几何体积 \(L_i\) 预测潜在特征 \(H_i\)。 - 核心机制: 层 \(i>1\) 时为条件生成(\(z=H_i\), \(c=L_i\)),最粗层 \(i=1\) 为无条件生成(同时生成 \(L_1\)\(H_1\))。训练在随机裁剪的 patch 上进行: $\(\mathcal{L}_\text{diff} = \mathbb{E}_{z,c,\epsilon,t}[\|\epsilon - \mathcal{G}_i(z_t, t, c)\|_2^2]\)$ - 设计动机: Patch 级训练将关注从复杂未对齐的全场景转移到共享结构更多的局部区域,同时起到数据增强作用。

3. 大规模场景的 Patch 拼接生成 - 功能: 推理时通过 patch 拼接 + 从粗到细的层级重建生成任意大小场景。 - 核心机制: - 最粗层用 Stable Inpainting 方案自回归生成 patch(已知区域固定 + 未知区域扩散) - 高分辨率层用 MultiDiffusion 方案并行去噪所有 patch,重叠区域取平均融合 - 设计动机: 粗层 patch 少适合自回归保证全局一致性,细层 patch 多用并行加速(相比 BlockFusion 生成 170 个房间仅需 2h vs 3h/7 房间)。

损失函数

  • 潜在树训练: \(\mathcal{L}_\text{latent} = (L_{i+1} - \mathcal{D}_{i+1}(\mathcal{E}_{i+1}(L_{i+1})))^2\)
  • 扩散训练: 标准去噪 ε-prediction 损失

实验关键数据

主实验 — 3D-FRONT 无条件场景生成

方法 COV↑ (CD) MMD↓ (CD) 1-NNA↓ (CD) FID↓
PVD 43.82 3.69 70.83 237.85
NFD 44.65 3.65 62.86 266.27
BlockFusion 24.32 5.10 89.01 45.55
XCube 48.60 3.35 56.45 55.35
LT3SD (3层) 53.10 3.51 53.22 13.39

FID 13.39 远超第二名 45.55(提升 70%+),同时 COV/1-NNA 等全局结构指标也最优。

消融 — 潜在树层数

配置 FID↓ COV↑ (CD)
单层 (17.6-2.2) 59.23 28.61
单层 (8.8-2.2) 50.07 40.87
三层 (17.6-8.8-2.2) 13.39 53.10

多层分层建模是高质量生成的关键。

潜在表征消融

表征 训练时间 存储 重建误差 (ℓ₂)
Cascaded Model ×1.00 ×1.00 4.91×10⁻⁴
Latent Tree ×0.87 ×0.80 3.20×10⁻⁴

关键发现

  1. 分层 > 单层: 三层潜在树的 FID (13.39) 远优于任何单层配置 (50+)。
  2. 互补分解 > 独立级联: 每层分解为几何+潜在特征比每层独立建模高效且准确。
  3. 可生成新颖场景: 生成 patch 与最近邻训练 patch 存在显著结构差异,证明模型不是记忆训练数据。

亮点与洞察

  1. 潜在树表征设计精巧: 几何(TUDF,可直接下采样)编码低频,潜在特征编码高频残差 — 互补分解比冗余级联高效。
  2. Patch 级训练+推理的统一: 训练时 patch 随机裁剪(数据增强+避免过拟合),推理时 patch 拼接(支持任意大小)。
  3. 速度优势显著: 45m×90m 的大规模场景(~170 房间)单 GPU 2小时完成。
  4. 概率补全: 从部分观测出发可采样多种合理的完整场景,展示了生成模型的多样性。

局限与展望

  1. 仅在 3D-FRONT 室内数据集上验证,室外场景(更大规模、更稀疏)适用性未知。
  2. 无条件生成 — 无法通过文本/布局等控制生成内容。
  3. TUDF 表征假设简单拓扑,对透明/薄壳物体可能有局限。
  4. 三层潜在树的超参(patch 大小、重叠率、特征通道数)可能需要针对不同场景域调整。
  5. 自回归 patch 生成顺序(面包优先遍历)可能引入方向性偏差。

相关工作与启发

  • BlockFusion: 基于三平面+布局条件 → 局部表面质量好但全局结构差;LT3SD 的分层从粗到细策略解决了全局一致性问题。
  • XCube: 基于稀疏体素潜在 → 单步生成限制了细节保真度;LT3SD 的分层条件生成逐步叠加细节。
  • MultiDiffusion (Bar-Tal et al.): 2D 图像的 patch 并行去噪 → LT3SD 将其推广到 3D,在高分辨率层使用以加速推理。
  • 启发: "几何+特征互补分解"可推广到其他 3D 表征(如 NeRF 的多分辨率 hash grid 也可尝试类似分解学习)。

评分

⭐⭐⭐⭐ — 表征设计有巧思,定量大幅超越 SOTA,支持无限场景生成很实用;但仅限室内数据集、缺少条件控制能力。

相关论文