Decompositional Neural Scene Reconstruction with Generative Diffusion Prior¶
会议: CVPR 2025
arXiv: 2503.14830
代码: 项目页面
领域: 3D视觉 / 场景重建
关键词: 分解式场景重建, 扩散先验, SDS损失, 可见性引导, 稀疏视角重建
一句话总结¶
提出DP-Recon,将生成式扩散先验(SDS)引入分解式神经场景重建中,通过可见性引导动态调整逐像素SDS权重,解决重建目标与生成引导之间的冲突,实现稀疏视角下完整的物体几何与外观恢复。
研究背景与动机¶
- 分解式3D场景重建旨在将场景分解为独立物体,对具身AI、机器人和场景编辑至关重要
- 现有方法(RICO、ObjectSDF++)在稀疏视角和严重遮挡区域表现不佳,几何和外观恢复退化严重
- 语义/几何正则化方法(FreeNeRF、RegNeRF)无法为欠约束区域提供新信息
- 核心论点: 解决问题的关键在于为未观察区域补充缺失信息 — 扩散模型的生成先验是理想来源
- 核心挑战: 直接将SDS引入重建管线会在已观察区域引起冲突,需要平衡重建引导和生成引导
方法详解¶
整体框架¶
DP-Recon分三个阶段:(1) 使用重建损失进行分解式神经隐式面重建;(2) 对每个物体施加可见性引导的几何SDS优化;(3) 导出网格后进行可见性引导的外观SDS优化。通过可学习的可见性网格协调重建与生成引导。
关键设计¶
-
可见性引导的SDS优化:
- 功能:动态调整每个像素的SDS损失权重,在高可见性区域降低生成引导、低可见性区域增强生成引导
- 核心思路:引入可学习可见性网格 \(G\),利用体积渲染中的累积透射率 \(T\) 优化:\(\mathcal{L}_v = \sum_{i=0}^{n} \max(T_i - G(p_i), 0)\);在新视角下渲染可见性图 \(V(r) = \sum T_i \alpha_i v_i\)
- 可见性加权函数:分段线性函数,低可见性区域给SDS更高权重,高可见性区域压低SDS权重
- 设计动机:SDS存在过饱和、过平滑等伪影,在已有重建引导的观察区域应以重建为主;在未观察/遮挡区域才需要生成先验补充信息
-
分解式先验引导的几何优化:
- 功能:对每个物体独立施加SDS改善几何
- 核心思路:对第 \(j\) 个物体渲染法向图和mask图,构成输入 \(\tilde{n}_j\) 送入Stable Diffusion;梯度为 \(\nabla_\theta \mathcal{L}_{\text{SDS}}^{g-v} = \mathbb{E}[w^v(z)w(t)(\hat{\epsilon}_\phi(z_t;y,t) - \epsilon)\frac{\partial z}{\partial \tilde{n}_j}\frac{\partial \tilde{n}_j}{\partial \theta}]\)
- 使用OccGrid采样加速渲染,\(128 \times 128\) 分辨率仅需0.01秒
- 设计动机:区别于全场景SDS,分物体SDS能保证跨视角3D一致性、恢复遮挡后方物体
-
网格级外观优化与背景修复:
- 功能:导出每个物体网格后用SDS优化UV纹理
- 核心思路:使用NVDiffrast可微渲染,小型网络 \(\psi\) 预测表面点颜色,外观SDS + 颜色渲染损失联合优化
- 背景使用深度引导inpainting生成全景色彩图进行监督
- 设计动机:直接在网格上优化外观可生成详细UV映射,兼容标准3D软件的光照渲染和VFX编辑
损失函数 / 训练策略¶
- 阶段1:重建损失 \(\mathcal{L}_{recon}\)(颜色、深度、法向、SDF正则化等)
- 阶段2:\(\mathcal{L}_{recon} + \mathcal{L}_{\text{SDS}}^{g-v}\)(可见性引导几何SDS)
- 阶段3:颜色渲染损失 + \(\mathcal{L}_{\text{SDS}}^{a-v}\)(可见性引导外观SDS)
- 使用预训练Stable Diffusion(不做微调),通过文本描述引导
- 可见性网格在阶段1完成后优化,在阶段2/3中冻结
实验关键数据¶
主实验(Replica, 10 views)¶
| 方法 | CD↓ | F-Score↑ | NC↑ | PSNR↑ | MUSIQ↑ |
|---|---|---|---|---|---|
| MonoSDF | 12.57 | 43.25 | 83.14 | 22.44 | 36.02 |
| ObjectSDF++ | 8.57 | 50.11 | 85.44 | 24.66 | 41.42 |
| Ours (geo) | 7.91 | 50.99 | 89.36 | 25.08 | 43.33 |
| Ours (full) | 7.91 | 50.99 | 89.36 | 24.52 | 49.22 |
分解物体重建(Replica)¶
| 方法 | 物体CD↓ | 物体F-Score↑ | 物体NC↑ | mIoU↑ |
|---|---|---|---|---|
| RICO | 10.32 | 49.26 | 61.27 | 71.21 |
| ObjectSDF++ | 7.49 | 56.69 | 64.75 | 71.72 |
| Ours | 5.54 | 67.71 | 73.50 | 88.21 |
不同视角数(Replica, 场景CD↓ / NC↑)¶
| 方法 | 5 views | 10 views | 15 views |
|---|---|---|---|
| ObjectSDF++ | – | 8.57 / 85.44 | – |
| Ours | – | 7.91 / 89.36 | – |
关键发现¶
- 10视角的重建质量超越基线100视角的结果(在严重遮挡场景中)
- 物体重建mIoU提升16.5 pp(71.72→88.21),说明生成先验极大改善了物体分割/完整性
- ScanNet++实景数据集上物体CD从14.52降至5.03,提升65%
- MUSIQ感知质量指标从41.42提升至49.22,说明外观SDS显著改善视觉效果
亮点与洞察¶
- 核心创新: 首次将SDS用于分解式场景重建,对每个物体独立施加生成先验,而非全场景
- 可见性引导的优雅设计: 利用体积渲染中自然存在的透射率信息,无需外部可见性先验,计算成本极低
- 实用价值: 生成的解耦UV网格可直接导入Blender等3D软件进行VFX编辑
- 10 views > 100 views: 展示了生成先验在极稀疏视角下的巨大潜力
局限与展望¶
- SDS固有的过饱和/过平滑问题虽被可见性引导缓解,但未完全消除
- 背景使用全景inpainting处理,在复杂室外场景中可能质量下降
- 对Stable Diffusion的依赖意味着领域外物体(罕见/特殊物体)可能生成不佳
- 训练包含多个阶段,整体时间成本较高
- 仅验证了室内场景(Replica, ScanNet++),室外泛化性待验证
相关工作与启发¶
- 与DreamFusion的SDS不同,DP-Recon是重建+生成的混合范式而非纯生成
- 可见性引导思想可迁移到其他SDS应用场景(如单图3D生成中的已知/未知区域平衡)
- 启发未来用更先进的3D感知扩散模型(如视频扩散模型)替代2D Stable Diffusion
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将SDS与分解式重建结合的首创工作,可见性引导策略设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ Replica+ScanNet++、多种基线对比、不同视角数实验、消融全面、多种下游应用展示
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法逻辑递进
- 价值: ⭐⭐⭐⭐⭐ 开创性地证明了生成先验在稀疏视角分解重建中的巨大价值,10 views超越100 views具有标志性意义
相关论文¶
- [CVPR 2025] Regularizing INR with Diffusion Prior for Self-Supervised 3D Reconstruction of Neutron CT Data
- [CVPR 2025] NeRFPrior: Learning Neural Radiance Field as a Prior for Indoor Scene Reconstruction
- [CVPR 2025] SPARS3R: Semantic Prior Alignment and Regularization for Sparse 3D Reconstruction
- [CVPR 2025] DiET-GS: Diffusion Prior and Event Stream-Assisted Motion Deblurring 3D Gaussian Splatting
- [ICCV 2025] MoGA: 3D Generative Avatar Prior for Monocular Gaussian Avatar Reconstruction