跳转至

Decompositional Neural Scene Reconstruction with Generative Diffusion Prior

会议: CVPR 2025
arXiv: 2503.14830
代码: 项目页面
领域: 3D视觉 / 场景重建
关键词: 分解式场景重建, 扩散先验, SDS损失, 可见性引导, 稀疏视角重建

一句话总结

提出DP-Recon,将生成式扩散先验(SDS)引入分解式神经场景重建中,通过可见性引导动态调整逐像素SDS权重,解决重建目标与生成引导之间的冲突,实现稀疏视角下完整的物体几何与外观恢复。

研究背景与动机

  • 分解式3D场景重建旨在将场景分解为独立物体,对具身AI、机器人和场景编辑至关重要
  • 现有方法(RICO、ObjectSDF++)在稀疏视角和严重遮挡区域表现不佳,几何和外观恢复退化严重
  • 语义/几何正则化方法(FreeNeRF、RegNeRF)无法为欠约束区域提供新信息
  • 核心论点: 解决问题的关键在于为未观察区域补充缺失信息 — 扩散模型的生成先验是理想来源
  • 核心挑战: 直接将SDS引入重建管线会在已观察区域引起冲突,需要平衡重建引导和生成引导

方法详解

整体框架

DP-Recon分三个阶段:(1) 使用重建损失进行分解式神经隐式面重建;(2) 对每个物体施加可见性引导的几何SDS优化;(3) 导出网格后进行可见性引导的外观SDS优化。通过可学习的可见性网格协调重建与生成引导。

关键设计

  1. 可见性引导的SDS优化:

    • 功能:动态调整每个像素的SDS损失权重,在高可见性区域降低生成引导、低可见性区域增强生成引导
    • 核心思路:引入可学习可见性网格 \(G\),利用体积渲染中的累积透射率 \(T\) 优化:\(\mathcal{L}_v = \sum_{i=0}^{n} \max(T_i - G(p_i), 0)\);在新视角下渲染可见性图 \(V(r) = \sum T_i \alpha_i v_i\)
    • 可见性加权函数:分段线性函数,低可见性区域给SDS更高权重,高可见性区域压低SDS权重
    • 设计动机:SDS存在过饱和、过平滑等伪影,在已有重建引导的观察区域应以重建为主;在未观察/遮挡区域才需要生成先验补充信息
  2. 分解式先验引导的几何优化:

    • 功能:对每个物体独立施加SDS改善几何
    • 核心思路:对第 \(j\) 个物体渲染法向图和mask图,构成输入 \(\tilde{n}_j\) 送入Stable Diffusion;梯度为 \(\nabla_\theta \mathcal{L}_{\text{SDS}}^{g-v} = \mathbb{E}[w^v(z)w(t)(\hat{\epsilon}_\phi(z_t;y,t) - \epsilon)\frac{\partial z}{\partial \tilde{n}_j}\frac{\partial \tilde{n}_j}{\partial \theta}]\)
    • 使用OccGrid采样加速渲染,\(128 \times 128\) 分辨率仅需0.01秒
    • 设计动机:区别于全场景SDS,分物体SDS能保证跨视角3D一致性、恢复遮挡后方物体
  3. 网格级外观优化与背景修复:

    • 功能:导出每个物体网格后用SDS优化UV纹理
    • 核心思路:使用NVDiffrast可微渲染,小型网络 \(\psi\) 预测表面点颜色,外观SDS + 颜色渲染损失联合优化
    • 背景使用深度引导inpainting生成全景色彩图进行监督
    • 设计动机:直接在网格上优化外观可生成详细UV映射,兼容标准3D软件的光照渲染和VFX编辑

损失函数 / 训练策略

  • 阶段1:重建损失 \(\mathcal{L}_{recon}\)(颜色、深度、法向、SDF正则化等)
  • 阶段2:\(\mathcal{L}_{recon} + \mathcal{L}_{\text{SDS}}^{g-v}\)(可见性引导几何SDS)
  • 阶段3:颜色渲染损失 + \(\mathcal{L}_{\text{SDS}}^{a-v}\)(可见性引导外观SDS)
  • 使用预训练Stable Diffusion(不做微调),通过文本描述引导
  • 可见性网格在阶段1完成后优化,在阶段2/3中冻结

实验关键数据

主实验(Replica, 10 views)

方法 CD↓ F-Score↑ NC↑ PSNR↑ MUSIQ↑
MonoSDF 12.57 43.25 83.14 22.44 36.02
ObjectSDF++ 8.57 50.11 85.44 24.66 41.42
Ours (geo) 7.91 50.99 89.36 25.08 43.33
Ours (full) 7.91 50.99 89.36 24.52 49.22

分解物体重建(Replica)

方法 物体CD↓ 物体F-Score↑ 物体NC↑ mIoU↑
RICO 10.32 49.26 61.27 71.21
ObjectSDF++ 7.49 56.69 64.75 71.72
Ours 5.54 67.71 73.50 88.21

不同视角数(Replica, 场景CD↓ / NC↑)

方法 5 views 10 views 15 views
ObjectSDF++ 8.57 / 85.44
Ours 7.91 / 89.36

关键发现

  • 10视角的重建质量超越基线100视角的结果(在严重遮挡场景中)
  • 物体重建mIoU提升16.5 pp(71.72→88.21),说明生成先验极大改善了物体分割/完整性
  • ScanNet++实景数据集上物体CD从14.52降至5.03,提升65%
  • MUSIQ感知质量指标从41.42提升至49.22,说明外观SDS显著改善视觉效果

亮点与洞察

  • 核心创新: 首次将SDS用于分解式场景重建,对每个物体独立施加生成先验,而非全场景
  • 可见性引导的优雅设计: 利用体积渲染中自然存在的透射率信息,无需外部可见性先验,计算成本极低
  • 实用价值: 生成的解耦UV网格可直接导入Blender等3D软件进行VFX编辑
  • 10 views > 100 views: 展示了生成先验在极稀疏视角下的巨大潜力

局限与展望

  • SDS固有的过饱和/过平滑问题虽被可见性引导缓解,但未完全消除
  • 背景使用全景inpainting处理,在复杂室外场景中可能质量下降
  • 对Stable Diffusion的依赖意味着领域外物体(罕见/特殊物体)可能生成不佳
  • 训练包含多个阶段,整体时间成本较高
  • 仅验证了室内场景(Replica, ScanNet++),室外泛化性待验证

相关工作与启发

  • 与DreamFusion的SDS不同,DP-Recon是重建+生成的混合范式而非纯生成
  • 可见性引导思想可迁移到其他SDS应用场景(如单图3D生成中的已知/未知区域平衡)
  • 启发未来用更先进的3D感知扩散模型(如视频扩散模型)替代2D Stable Diffusion

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将SDS与分解式重建结合的首创工作,可见性引导策略设计精巧
  • 实验充分度: ⭐⭐⭐⭐⭐ Replica+ScanNet++、多种基线对比、不同视角数实验、消融全面、多种下游应用展示
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法逻辑递进
  • 价值: ⭐⭐⭐⭐⭐ 开创性地证明了生成先验在稀疏视角分解重建中的巨大价值,10 views超越100 views具有标志性意义

相关论文