跳转至

Toward Robust Neural Reconstruction from Sparse Point Sets

会议: CVPR 2025
arXiv: 2412.16361
代码: 无
领域: 3D视觉
关键词: 稀疏点云重建, 符号距离函数, 分布鲁棒优化, Wasserstein距离, 对抗样本

一句话总结

提出基于分布鲁棒优化(DRO)框架的神经 SDF 学习方法,通过 Wasserstein 和 Sinkhorn 距离定义不确定性集合,从模型不确定性区域采样来正则化训练,在稀疏噪声点云上实现鲁棒的 3D 重建。

研究背景与动机

从稀疏噪声 3D 点云学习符号距离函数(SDF)是 3D 重建的核心挑战。传统方法(如泊松重建)需要密集干净的点云和准确法线。深度学习方法如 Neural Pull 从密集点云学习 SDF 表现良好,但在稀疏噪声输入下因过拟合导致形状缺失和幻觉。

关键问题:SDF 的近似误差倾向于集中在点云低密度和噪声区域。现有方法 NAP 通过在每个查询点局部扰动生成对抗样本来正则化训练,但仅做逐点独立扰动(硬球投影),缺乏全局最优的"最坏情况分布"。

作者的核心思想:不是独立扰动查询点,而是在查询点分布的 Wasserstein 球邻域内寻找最坏情况分布——该分布下的期望损失最大——并在此分布上优化 SDF。通过 DRO 的对偶公式实现可行求解,进一步用 Sinkhorn 距离的熵正则化加速收敛并产生更平滑的对抗分布。

方法详解

整体框架

基于 Neural Pull 的查询-拉取策略学习 SDF \(f_\theta\)。在标准经验风险最小化基础上,添加 DRO 正则化项。两种方案:SDF WDRO(Wasserstein DRO)和 SDF SDRO(Sinkhorn DRO)。最终训练目标结合标准损失和 DRO 损失,使用可学习权重 \(\lambda_1, \lambda_2\) 自适应平衡。

关键设计一:Wasserstein 分布鲁棒优化(WDRO)

功能:在查询分布的 Wasserstein 球邻域内寻找最坏情况分布

核心思路:优化问题为 \(\inf_\theta \sup_{Q': \mathcal{W}_c(Q', Q) < \epsilon} \mathbb{E}_{q' \sim Q'} \mathcal{L}(\theta, q')\)。通过对偶重公式化为可行形式:

\[\inf_{\theta, \lambda \geq 0} \left\{\lambda \epsilon + \mathbb{E}_{q \sim Q}\left[\sup_{q'}\{\mathcal{L}(\theta, q') - \lambda c(q', q)\}\right]\right\}\]

给定当前 \(\theta\)\(\lambda\),通过对查询点 \(q\) 扰动后进行几步梯度上升找到最坏情况空间查询 \(q'\),然后更新 \(\lambda\)

设计动机:相比 NAP 的逐点独立扰动(局部信息),WDRO 通过更新对偶变量 \(\lambda\) 捕获全局信息。软球投影(而非硬球)通过 \(\lambda\) 在训练中自适应调整,提供更强的对抗样本。

关键设计二:Sinkhorn DRO 熵正则化(SDRO)

功能:加速 WDRO 收敛并产生更平滑的最坏情况分布

核心思路:将 Wasserstein 距离替换为 Sinkhorn 距离(添加相对熵惩罚),对偶形式为:

\[\mathcal{L}_{\text{SDRO}}(\theta, Q) = \lambda \rho \mathbb{E}_{q \sim Q}\left[\log \mathbb{E}_{q' \sim \mathbb{Q}_{q,\rho}}\left[e^{\mathcal{L}(\theta, q') / (\lambda \rho)}\right]\right]\]

其中 \(\mathbb{Q}_{q,\rho}\) 的密度正比于 \(e^{-c(q,z)/\rho}\),当代价 \(c = \frac{1}{2}\|\cdot\|^2\) 时等价于高斯分布 \(\mathcal{N}(q, \rho \mathbf{I}_3)\)。对每个查询 \(q\) 采样 \(N_s = 5\) 个对抗样本。

设计动机:WDRO 收敛慢且最坏情况分布为离散分布(因名义分布有限支撑),可能过于保守。熵正则化产生连续且扩散的对抗分布,使 SDF 近似误差更均匀分布在整个形状上,而非集中在少数离散点。

关键设计三:多任务加权训练目标

功能:自适应平衡标准损失和 DRO 正则化损失

核心思路

\[\mathfrak{L}(\theta, q) = \frac{1}{2\lambda_1}\mathcal{L}(\theta, q) + \frac{1}{2\lambda_2}\mathcal{L}_{\text{DRO}}(\theta, q) + \ln(1+\lambda_1) + \ln(1+\lambda_2)\]

\(\lambda_1, \lambda_2\) 为可学习权重,与网络参数 \(\theta\) 一起优化。

设计动机:标准 Neural Pull 损失确保点云上的 SDF 准确,DRO 损失增强不确定区域的鲁棒性。两者自适应加权避免手动调参。

损失函数

Neural Pull 基础损失 \(\mathcal{L}(\theta, q) = \|q - f_\theta(q) \cdot \frac{\nabla f_\theta(q)}{\|\nabla f_\theta(q)\|_2} - p\|_2^2\) + DRO 正则化损失 \(\mathcal{L}_{\text{SDRO}}\) + Eikonal 约束。

实验关键数据

主实验:ShapeNet 稀疏噪声点云重建(1024 点 + 高斯噪声)

方法 CD1↓ CD2↓ NC↑ FS↑
Neural Pull 1.16 0.074 0.84 0.75
NAP 0.76 0.020 0.87 0.83
SparseOcc 0.76 0.020 0.88 0.83
NTPS 1.11 0.067 0.88 0.74
Ours (WDRO) 0.77 0.015 0.87 0.83
Ours (SDRO) 0.63 0.012 0.90 0.86

与监督方法对比

方法 类型 CD1↓
POCO (监督) 前馈泛化 较高(分布外数据下降)
CONet (监督) 前馈泛化 较高
Ours SDRO (无监督) 逐场景优化 更低

关键发现

  • SDRO 比 NAP 和 SparseOcc 提升 -17% CD1(0.63 vs 0.76),证明分布级对抗优于逐点对抗
  • WDRO 在 CD2 上已优于 NAP(0.015 vs 0.020),但 SDRO 进一步降至 0.012
  • 在 Faust 真实人体扫描和 3D Scene 大场景上均超越 SOTA
  • 无监督方法超越监督泛化模型:在分布外稀疏数据上,逐场景优化的 DRO 方法优于需要前馈泛化的监督方法
  • SDRO 收敛速度显著快于 WDRO(约 2-3 倍),验证了熵正则化对训练效率的提升

亮点与洞察

  1. 理论深度:将最优传输和分布鲁棒优化的理论工具首次系统引入 3D 点云重建
  2. 从点到分布:从 NAP 的逐点对抗扰动升级为分布级最坏情况优化,提供更强的正则化
  3. 熵正则化的优雅作用:Sinkhorn 距离的使用不仅加速收敛,还产生理论上更合适的连续最坏情况分布

局限与展望

  • WDRO 版本训练时间显著增加(尽管 SDRO 有所缓解)
  • 超参数 \(\rho, \lambda, \epsilon\) 的搜索仍需在基准上进行
  • 仅处理无方向点云,未利用可能的法线信息
  • 未来可探索将 DRO 框架应用于高斯溅射等新表示

相关工作与启发

  • Neural Pull:基础框架,通过 SDF 梯度将查询点拉向最近输入点
  • NAP:引入逐点对抗扰动正则化的先驱,SDRO 是其理论推广
  • Wasserstein DRO 文献:分布鲁棒优化在机器学习/运筹学中的理论基础

评分

⭐⭐⭐⭐ — 理论框架严谨,将最优传输理论与 3D 重建优雅结合。SDRO 比 NAP 的"点级对抗"到"分布级对抗"的升级既有理论深度又有实际性能提升。在稀疏点云上超越监督泛化方法的结果尤为突出。但方法复杂度较高,超参需要精心调节。

相关论文