DreamScene360: Unconstrained Text-to-3D Scene Generation with Panoramic Gaussian Splatting¶

会议: ECCV 2024
arXiv: 2404.06903
代码: https://github.com/dreamscene360/dreamscene360 (有)
领域: 3D视觉
关键词: 文本到3D生成, 全景图像, 3D高斯溅射, 场景生成, 扩散模型

一句话总结¶

提出DreamScene360，利用全景图像作为中间表示，结合GPT-4V自精炼机制和全景3D高斯溅射技术，实现从文本到沉浸式360°3D场景的快速生成。

研究背景与动机¶

领域现状：文本到3D场景生成主要有两条技术路线：(a) 基于Score Distillation Sampling (SDS)的方法（如DreamFusion），通过从2D扩散模型蒸馏先验来优化NeRF/3DGS表示；(b) 基于显式表示的渐进式方法（如LucidDreamer、Text2Room），通过逐步扩展3D表示来覆盖更广的视野。

现有痛点： - SDS方法渲染质量低，受限于2D模型的多视角不一致性，且难以扩展到场景级别的3D结构 - 渐进式方法在填充大面积缺失区域时效果差，尤其对于360°场景会产生明显的扭曲和不连贯结构 - 文本到图像的提示工程问题在3D生成中更加突出，需要大量试错

核心矛盾：现有方法缺乏全局一致性的2D场景表示，导致无法在360°范围内保持语义和几何一致性

本文目标 从任意文本提示生成全局一致的沉浸式360°3D场景

切入角度：以全景图像作为中间表示，既能保证全局一致性，又能利用GPT-4V实现自动提示优化

核心 idea：全景图像提供了完整360°场景的全局一致2D表示，结合单目深度初始化和语义/几何正则化，可以高效地提升为3D高斯表示

方法详解¶

整体框架¶

DreamScene360包含三个阶段：(1) 使用扩散模型生成360°全景图，并通过GPT-4V自精炼迭代优化；(2) 利用单目深度估计和可学习几何场对全景图进行2D-to-3D的初始化；(3) 通过语义和几何正则化优化全景3D高斯，填充单视角输入的不可见区域。

关键设计¶

文本到360°全景生成 + 自精炼机制:
- 功能：从文本生成高质量、全局一致的360°全景图像
- 核心思路：基于MultiDiffusion的滑窗扩散过程，使用StitchDiffusion确保左右边界连续性。生成分辨率为 $H \times 2H$ 的全景图，去噪过程中每个patch的更新通过加权平均融合： $\Phi(I_{t-1}) = \sum_{i=1}^{n} \frac{P_i^{-1}(W_i)}{\sum_{j=1}^{n} P_j^{-1}(W_j)} \otimes P_i^{-1}(\Phi(P_i(I_t)))$
- 在每个去噪时间步，不仅在原始分辨率上扩散，还将最左和最右区域拼接后一起扩散，确保边界一致性
- 自精炼：集成GPT-4V进行多轮自我改进，从用户简单提示出发，GPT-4V对生成图像在对象数量、属性、关系、外观等方面评分(0-10)，并给出改进建议来修改提示词，最终选出最高分的全景图
- 设计动机：全景图为后续3D生成提供全局一致的2D表示，GPT-4V消除了手动提示工程的需要
全景几何场初始化:
- 功能：将2D全景图提升为具有一致性的3D点云，作为高斯初始化
- 核心思路：将全景图投影到N=20个重叠的透视切线图像，使用DPT单目深度估计器获取每个视角的深度图 $D_i^{\text{Mono}}$。由于单目深度存在仿射歧义，引入可学习的全局几何场(MLP)和每视角的尺度/偏移参数进行全局对齐： $\min_{\alpha,\beta,\Theta} \left\{ \|\alpha \cdot D^{\text{Mono}} + \beta - \text{MLPs}(v;\Theta)\|_2^2 + \lambda_{\text{TV}} \mathcal{L}_{\text{TV}}(\beta) + \lambda_\alpha \|\gamma(\alpha) - 1\|^2 \right\}$
- 其中 $\alpha_i$ 为每视角尺度参数，$\beta_i$ 为逐像素偏移参数，$\Theta$ 为MLP参数，$\gamma(\cdot)$ 为softplus函数
- TV损失确保偏移参数的空间平滑性
- 设计动机：户外场景没有结构化布局先验，需要通过可变形对齐实现跨视角的尺度一致性
虚拟相机合成视差 + 语义/几何正则化:
- 功能：解决单视角全景缺乏视差信息的问题，填充不可见区域
- 核心思路：通过在全景视点坐标上引入渐进式扰动来合成虚拟相机： $(x', y', z') = (x, y, z) + \delta(d_x, d_y, d_z)$ 扰动范围为 $[-0.05, +0.05] \times \gamma$，$\gamma \in \{1, 2, 4\}$ 表示3阶段渐进扰动
- 语义正则化：使用DINOv2的[CLS]特征，约束训练视角与虚拟视角的语义一致性： $\mathcal{L}_{\text{sem}} = 1 - \text{Cos}([\text{CLS}](I_i), [\text{CLS}](I_i'))$
- 几何正则化：使用DPT估计渲染图像深度，通过Pearson相关正则化渲染深度的相对关系： $\mathcal{L}_{\text{geo}}(I_i, D_i) = 1 - \frac{\text{Cov}(D_i, \text{DPT}(I_i))}{\sqrt{\text{Var}(D_i) \cdot \text{Var}(\text{DPT}(I_i))}}$
- 设计动机：单视角全景没有视差信息(无法通过双目视差感知深度)，需要通过虚拟视角结合2D模型先验来弥补

损失函数 / 训练策略¶

总体损失函数： $$\mathcal{L} = \mathcal{L}_{\text{RGB}} + \lambda_1 \cdot \mathcal{L}_{\text{sem}} + \lambda_2 \cdot \mathcal{L}_{\text{geo}}$$

$\mathcal{L}_{\text{RGB}}$：光度损失，包含L1和D-SSIM项
$\lambda_1 = \lambda_2 = 0.05$
输入全景分辨率 $1024 \times 2048$
禁用3DGS的自适应密度控制(densification)，因为已有高质量点云初始化
FoV设为80°进行几何场优化

实验关键数据¶

主实验¶

指标	DreamScene360	LucidDreamer	说明
CLIP Distance ↓	0.8732	0.8900	文本-图像对齐
Q-Align ↑	3.1094	3.0566	SOTA感知质量评估
NIQE ↓	4.9165	6.2305	无参考图像质量
BRISQUE ↓	38.3911	51.9764	无参考图像质量
运行时间	7min 20sec	6min 15sec	略慢但可接受

消融实验¶

配置	效果	说明
仅光度损失	虚拟视角出现伪影	缺少遮挡区域的约束
+ 几何正则化	伪影减少	深度一致性提升
+ 语义正则化	伪影减少	高层语义补充
完整模型	最优视觉质量	两种正则化互补
随机初始化	模糊结果	缺乏几何先验
单目深度+对齐	清晰一致	良好的初始化关键

关键发现¶

LucidDreamer的渐进式修复容易在复杂场景中产生重复内容（如一个卧室被复制成多个卧室）
GPT-4V自精炼能显著提升全景图的视觉质量和细节丰富度
禁用3DGS的densification反而有助于提升质量和加速收敛

亮点与洞察¶

全景图作为中间表示是极好的设计选择——它自然解决了360°场景的全局一致性问题，同时使得GPT-4V的质量评估成为可能（之前的方法没有全局2D表示，无法做此类评估）
整个pipeline实现了"一键式"3D场景生成，约7分钟完成，用户体验显著优于需要反复调试的SDS方法
将单目深度的仿射歧义问题转化为可学习的几何场优化，是实用且优雅的解决方案

局限与展望¶

生成分辨率受限于预训练全景扩散模型的默认分辨率（$512 \times 1024$）
未来可探索更高分辨率生成和4D动态场景扩展
场景的几何精度仍受限于单目深度估计的质量

评分¶

新颖性: ⭐⭐⭐⭐ 全景图作为中间表示+GPT-4V自精炼的设计简洁有效
实验充分度: ⭐⭐⭐ 仅与LucidDreamer对比，缺乏更多baseline和定量消融
写作质量: ⭐⭐⭐⭐ 结构清晰，动机阐述充分，图示优质
价值: ⭐⭐⭐⭐ 为360°场景生成提供了实用的端到端方案，有明确的工业应用价值