Decompositional Neural Scene Reconstruction with Generative Diffusion Prior¶

会议: CVPR 2025
arXiv: 2503.14830
代码: 项目页面
领域: 3D视觉 / 场景重建
关键词: 分解式场景重建, 扩散先验, SDS损失, 可见性引导, 稀疏视角重建

一句话总结¶

提出DP-Recon，将生成式扩散先验（SDS）引入分解式神经场景重建中，通过可见性引导动态调整逐像素SDS权重，解决重建目标与生成引导之间的冲突，实现稀疏视角下完整的物体几何与外观恢复。

研究背景与动机¶

分解式3D场景重建旨在将场景分解为独立物体，对具身AI、机器人和场景编辑至关重要
现有方法（RICO、ObjectSDF++）在稀疏视角和严重遮挡区域表现不佳，几何和外观恢复退化严重
语义/几何正则化方法（FreeNeRF、RegNeRF）无法为欠约束区域提供新信息
核心论点: 解决问题的关键在于为未观察区域补充缺失信息 — 扩散模型的生成先验是理想来源
核心挑战: 直接将SDS引入重建管线会在已观察区域引起冲突，需要平衡重建引导和生成引导

方法详解¶

整体框架¶

DP-Recon分三个阶段：(1) 使用重建损失进行分解式神经隐式面重建；(2) 对每个物体施加可见性引导的几何SDS优化；(3) 导出网格后进行可见性引导的外观SDS优化。通过可学习的可见性网格协调重建与生成引导。

关键设计¶

可见性引导的SDS优化:
- 功能：动态调整每个像素的SDS损失权重，在高可见性区域降低生成引导、低可见性区域增强生成引导
- 核心思路：引入可学习可见性网格 \(G\)，利用体积渲染中的累积透射率 \(T\) 优化：\(\mathcal{L}_v = \sum_{i=0}^{n} \max(T_i - G(p_i), 0)\)；在新视角下渲染可见性图 \(V(r) = \sum T_i \alpha_i v_i\)
- 可见性加权函数：分段线性函数，低可见性区域给SDS更高权重，高可见性区域压低SDS权重
- 设计动机：SDS存在过饱和、过平滑等伪影，在已有重建引导的观察区域应以重建为主；在未观察/遮挡区域才需要生成先验补充信息
分解式先验引导的几何优化:
- 功能：对每个物体独立施加SDS改善几何
- 核心思路：对第 \(j\) 个物体渲染法向图和mask图，构成输入 \(\tilde{n}_j\) 送入Stable Diffusion；梯度为 \(\nabla_\theta \mathcal{L}_{\text{SDS}}^{g-v} = \mathbb{E}[w^v(z)w(t)(\hat{\epsilon}_\phi(z_t;y,t) - \epsilon)\frac{\partial z}{\partial \tilde{n}_j}\frac{\partial \tilde{n}_j}{\partial \theta}]\)
- 使用OccGrid采样加速渲染，\(128 \times 128\) 分辨率仅需0.01秒
- 设计动机：区别于全场景SDS，分物体SDS能保证跨视角3D一致性、恢复遮挡后方物体
网格级外观优化与背景修复:
- 功能：导出每个物体网格后用SDS优化UV纹理
- 核心思路：使用NVDiffrast可微渲染，小型网络 \(\psi\) 预测表面点颜色，外观SDS + 颜色渲染损失联合优化
- 背景使用深度引导inpainting生成全景色彩图进行监督
- 设计动机：直接在网格上优化外观可生成详细UV映射，兼容标准3D软件的光照渲染和VFX编辑

损失函数 / 训练策略¶

阶段1：重建损失 \(\mathcal{L}_{recon}\)（颜色、深度、法向、SDF正则化等）
阶段2：\(\mathcal{L}_{recon} + \mathcal{L}_{\text{SDS}}^{g-v}\)（可见性引导几何SDS）
阶段3：颜色渲染损失 + \(\mathcal{L}_{\text{SDS}}^{a-v}\)（可见性引导外观SDS）
使用预训练Stable Diffusion（不做微调），通过文本描述引导
可见性网格在阶段1完成后优化，在阶段2/3中冻结

实验关键数据¶

主实验（Replica, 10 views）¶

方法	CD↓	F-Score↑	NC↑	PSNR↑	MUSIQ↑
MonoSDF	12.57	43.25	83.14	22.44	36.02
ObjectSDF++	8.57	50.11	85.44	24.66	41.42
Ours (geo)	7.91	50.99	89.36	25.08	43.33
Ours (full)	7.91	50.99	89.36	24.52	49.22

分解物体重建（Replica）¶

方法	物体CD↓	物体F-Score↑	物体NC↑	mIoU↑
RICO	10.32	49.26	61.27	71.21
ObjectSDF++	7.49	56.69	64.75	71.72
Ours	5.54	67.71	73.50	88.21

不同视角数（Replica, 场景CD↓ / NC↑）¶

方法	5 views	10 views	15 views
ObjectSDF++	–	8.57 / 85.44	–
Ours	–	7.91 / 89.36	–

关键发现¶

10视角的重建质量超越基线100视角的结果（在严重遮挡场景中）
物体重建mIoU提升16.5 pp（71.72→88.21），说明生成先验极大改善了物体分割/完整性
ScanNet++实景数据集上物体CD从14.52降至5.03，提升65%
MUSIQ感知质量指标从41.42提升至49.22，说明外观SDS显著改善视觉效果

亮点与洞察¶

核心创新: 首次将SDS用于分解式场景重建，对每个物体独立施加生成先验，而非全场景
可见性引导的优雅设计: 利用体积渲染中自然存在的透射率信息，无需外部可见性先验，计算成本极低
实用价值: 生成的解耦UV网格可直接导入Blender等3D软件进行VFX编辑
10 views > 100 views: 展示了生成先验在极稀疏视角下的巨大潜力

局限与展望¶

SDS固有的过饱和/过平滑问题虽被可见性引导缓解，但未完全消除
背景使用全景inpainting处理，在复杂室外场景中可能质量下降
对Stable Diffusion的依赖意味着领域外物体（罕见/特殊物体）可能生成不佳
训练包含多个阶段，整体时间成本较高
仅验证了室内场景（Replica, ScanNet++），室外泛化性待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将SDS与分解式重建结合的首创工作，可见性引导策略设计精巧
实验充分度: ⭐⭐⭐⭐⭐ Replica+ScanNet++、多种基线对比、不同视角数实验、消融全面、多种下游应用展示
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法逻辑递进
价值: ⭐⭐⭐⭐⭐ 开创性地证明了生成先验在稀疏视角分解重建中的巨大价值，10 views超越100 views具有标志性意义