ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance¶
会议: ECCV 2024
arXiv: 2403.12409
代码: https://cyw-3d.github.io/ComboVerse/ (项目页面)
领域: 3D视觉
关键词: 组合式3D生成, 多物体3D重建, 扩散模型引导, 空间感知SDS, 单图3D重建
一句话总结¶
提出ComboVerse,一个组合式3D资产生成框架:先将包含多个物体的输入图像分解并独立重建为单物体3D模型,再通过空间感知的Score Distillation Sampling (SSDS)引导物体的位置、缩放和旋转参数优化,实现高质量多物体组合3D资产创建,在CLIP Score和人类评估中均显著优于现有方法。
研究背景与动机¶
从单张图像生成高质量3D资产是AR/VR、游戏、影视等领域的核心需求。近年来基于feed-forward的单图3D生成模型取得了显著进展,但面临一个系统性问题:
"多物体差距"(Multi-Object Gap)——当前主流模型在处理单物体时效果很好,但面对包含多个物体的复杂场景时性能急剧下降。通过深入分析,三个根本原因被揭示:
相机设置偏差(Camera Setting Bias):大多数模型假设物体归一化大小并居中,多物体场景中小物体或偏离中心的物体重建质量显著下降
数据集偏差(Dataset Bias):训练集Objaverse以单物体资产为主,几乎不含遮挡情况,导致模型无法泛化到多物体组合和遮挡场景,生成结果出现"融合"现象
泄漏模式(Leaking Pattern):同时生成多物体时,一个物体的几何和外观会"泄漏"到另一个物体(如虎的背面染上猫头鹰的颜色)
核心洞察:既然现有方法在单物体重建上效果好,为何不先独立重建每个物体,再自动组合?这正是专业3D艺术家的工作流程——先建模各个物体,再整合为一个场景。
方法详解¶
整体框架¶
ComboVerse分为两个阶段: 1. 单物体重建阶段:分解输入图像中的各个物体,去除遮挡,独立进行单图3D重建 2. 多物体组合阶段:固定各物体的几何和纹理,仅优化它们的缩放 \(s_i\)、旋转 \(r_i\) 和平移 \(t_i\) 参数,通过空间感知SDS损失和参考视图损失引导空间布局
关键设计¶
-
物体分解与修复(Components Decomposition & Object Inpainting):
- 使用SAM根据2D边界框分割每个物体:\(O_i, M_i = \text{SAM}(I, b_i)\)
- 遮挡修复策略:
- 将物体背景替换为随机噪声(避免修复时产生白/黑边框):\(I_i = O_i + noise \cdot (\sim M_i)\)
- 构建边界框感知mask:\(m_i = (\sim M_i) \cap b_i\),标记需要修复的区域
- 使用Stable Diffusion配合文本提示"a complete 3D model"进行修复
- 设计动机:噪声背景+边界框感知mask+文本引导三者缺一不可,消融实验证实每个组件都有必要
-
空间感知Score Distillation Sampling (SSDS):
- 标准SDS的局限:当图像内容已匹配文本prompt时,SDS不会推动位置调整——它优先匹配内容而非空间关系
- SSDS核心思路:在UNet的cross-attention中,增强描述空间关系的token(如"sitting on"、"riding"、"front")的注意力权重 \(M := \begin{cases} c \cdot M_j & \text{if } j = j^\star \\ M_j & \text{otherwise} \end{cases}\) 其中 \(c > 1\) 为放大常数(实验中 \(c=25\)),\(j^\star\) 是空间关系token的索引
- SSDS梯度: \(\nabla_\theta \mathcal{L}_{\text{SSDS}}(\phi^\star, x) = \mathbb{E}_{t,\epsilon}[w(t)(\hat{\epsilon}_{\phi^\star}(x_t;y,t) - \epsilon)\frac{\partial x}{\partial \theta}]\)
- 时间步采样范围:[800, 900](高噪声水平),因为这些步骤对空间布局影响最大
- 空间token提取:可由LLM自动提取或用户指定
-
物体组合优化(Combine the Objects):
- 粗初始化:
- 缩放:\(s_i = \max\{W_{b_i}/W_I, H_{b_i}/H_I\}\),基于边界框与图像尺寸比
- 平移:x/y由边界框中心坐标决定,z由单目深度估计均值决定
- 旋转:初始化为(0,0,0)
- 精细优化:使用SSDS作为新视角监督 + 参考视图重建损失 \(\mathcal{L}_{\text{Ref}} = \lambda_{\text{RGB}}|\hat{I}_{\text{RGB}} - I_{\text{RGB}}| + \lambda_A|\hat{I}_A - I_A|\)
- 总损失为 \(\mathcal{L}_{\text{Ref}} + \mathcal{L}_{\text{SSDS}}\) 的加权和
- 粗初始化:
损失函数 / 训练策略¶
- 渲染引擎:PyTorch3D
- 优化器:Adam
- z方向平移学习率:0.01,其他参数:0.001
- 损失权重:\(\lambda_{\text{Ref}} = 1\),\(\lambda_{\text{SSDS}} = 1\),\(\lambda_{\text{RGB}} = 1000\),\(\lambda_A = 1000\)
- 注意力放大常数 \(c = 25\)
- Stable Diffusion修复设置:guidance scale=7.5,inference steps=30
- 每次迭代渲染10个视角
- 每个物体mesh降采样至50000面
实验关键数据¶
主实验¶
定量对比(100张测试图像):
| 方法 | CLIP-Score↑ | GPT-3DScore↑ |
|---|---|---|
| SyncDreamer | 81.47% | 13.54% |
| OpenLRM | 83.65% | 53.12% |
| Wonder3D | 85.57% | 56.25% |
| ComboVerse | 86.58% | 65.63% |
- 用户研究:990份回答来自22位评估者,ComboVerse在几何和纹理质量上持续优于所有对比方法
消融实验¶
SSDS消融(注意力放大效果):
| 引导方式 | CLIP B/16 Color↑ | CLIP B/16 Geo↑ | ResNet50 Color↑ | ResNet50 Geo↑ |
|---|---|---|---|---|
| 无引导 (Base) | 86.62% | 75.24% | 80.35% | 74.19% |
| Depth Loss | 84.57% | 78.42% | 81.69% | 75.83% |
| 标准SDS | 84.16% | 78.25% | 84.08% | 74.66% |
| SSDS (均匀噪声) | 85.33% | 78.49% | 85.55% | 75.85% |
| SSDS (低噪声) | 84.86% | 79.03% | 84.42% | 75.44% |
| SSDS (full) | 89.01% | 79.66% | 86.60% | 78.10% |
物体修复消融: - 去除噪声背景 → 修复结果出现黑色边框 - 使用背景mask替换边界框感知mask → 修复结果产生多余部分 - 去除文本引导 → 修复质量下降
关键发现¶
- SSDS在高噪声区间[800,900]效果最佳,符合扩散模型去噪过程中早期步骤决定全局布局的直觉
- 标准SDS甚至在某些指标上不如无引导的Base,说明SDS在位置调整任务上确实存在固有缺陷
- 空间token注意力放大系数 \(c=25\) 效果显著,表明扩散模型确实编码了空间关系知识,只是在标准SDS中被内容匹配淹没
- 方法可扩展到>2个物体的场景重建(实验展示了4物体场景)
亮点与洞察¶
- "分而治之"的组合式范式:模仿人类3D艺术家的工作流程,将复杂问题分解为已解决的子问题+自动组合,是务实且可扩展的思路
- "Multi-Object Gap"分析深入:从Camera Setting Bias、Dataset Bias、Leaking Pattern三个维度系统分析了现有方法的失败模式,为后续研究提供了方向
- SSDS的简洁有效:仅通过注意力权重的简单缩放即可显著改善空间布局引导,实现代价极低但效果显著
- 只优化空间参数不优化几何纹理:大幅加速了优化过程,同时避免了SDS带来的几何/纹理退化
局限与展望¶
- 适用于2-5个物体的场景,更复杂的场景仍面临挑战
- 组合阶段不优化几何和纹理,最终质量受限于backbone单图3D模型的能力
- 深度-尺寸歧义:单视角图像中的深度估计不准确可能导致不合理的初始化
- 可探索在组合阶段利用物理约束(如重力、接触)进一步改善空间关系
- 物体间交互的建模(如变形、接触面融合)尚未考虑
- 可结合多视角扩散模型(如Zero123++)替代单目深度估计提升组合精度
相关工作与启发¶
- 与Set-the-Scene等基于文本的组合3D生成对比:图像比文本更精确地描述空间关系,因此对组合质量要求更高
- SSDS思路可推广到其他需要空间精确对齐的SDS应用(如文本到3D场景生成)
- 注意力图操作的方法(来源于Attend-and-Excite)在3D生成中有广泛适用性
- 单物体3D生成模型的进步(如更强的backbone)将直接提升ComboVerse的表现
评分¶
- 新颖性: ⭐⭐⭐⭐ (组合式范式和SSDS设计新颖,但各组件复用了现有方法)
- 实验充分度: ⭐⭐⭐⭐ (自建benchmark、多基线对比、用户研究、消融详细,但benchmark规模较小)
- 写作质量: ⭐⭐⭐⭐ (分析清晰,图文并茂,motivation阐述充分)
- 价值: ⭐⭐⭐⭐ (填补了多物体3D生成的空白,组合式思路有实际应用前景)
相关论文¶
- [ICCV 2025] REPARO: Compositional 3D Assets Generation with Differentiable 3D Layout Alignment
- [ECCV 2024] 4Diff: 3D-Aware Diffusion Model for Third-to-First Viewpoint Translation
- [ECCV 2024] Transferable 3D Adversarial Shape Completion using Diffusion Models
- [ECCV 2024] UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation
- [ECCV 2024] DreamView: Injecting View-specific Text Guidance into Text-to-3D Generation