跳转至

Metropolis-Hastings Sampling for 3D Gaussian Reconstruction

会议: NeurIPS 2025
arXiv: 2506.12945
代码: 项目页面
领域: 三维视觉 / 新视角合成
关键词: 3D高斯溅射, Metropolis-Hastings, 自适应密度控制, 新视角合成, MCMC

一句话总结

提出自适应Metropolis-Hastings框架替代3DGS中的启发式密度控制机制,通过多视角光度误差驱动的概率采样实现更高效的高斯分布推断,收敛速度快于3DGS-MCMC。

研究背景与动机

3D高斯溅射(3DGS)通过显式3D高斯实现实时渲染,但严重依赖启发式密度控制(克隆、分裂、剪枝)——固定阈值过松导致冗余高斯和内存浪费,过紧则牺牲保真度。

现有改进的局限:

  • 3DGS-MCMC:用SGLD(随机梯度朗之万动力学)替代启发式,但需提前固定高斯总数,且为局部、全接受的链——无法进行全局跳跃
  • 其他方法:Error-based densification、homodirectional gradient等仍依赖阈值或固定上限
  • 核心问题:缺少一个有理论保证、自适应场景复杂度的稠密化机制

方法详解

整体框架

将3DGS稠密化和剪枝重构为统一的Metropolis-Hastings(MH)采样过程:

  1. 定义场景表示 \(\Theta = \{g_i\}_{i=1}^N\) 的后验 \(\pi(\Theta) \propto e^{-\mathcal{E}(\Theta)}\)
  2. 通过重要性驱动的提案生成候选高斯
  3. 用MH接受-拒绝测试决定是否保留
  4. 低不透明度高斯通过重定位机制回收

关键设计

  1. 贝叶斯场景后验与体素先验:

    • 功能:定义负对数后验 \(\mathcal{E}(\Theta) = \mathcal{L}(\Theta) + \lambda_v \sum_{v \in \mathcal{V}} \ln(1 + c_\Theta(v))\)
    • 核心思路:光度损失 \(\mathcal{L}\) 对应似然,体素先验惩罚拥挤区域。体素密度 \(c_\Theta(v)\) 的对数形式使空体素几乎无惩罚而拥挤体素惩罚快速增长
    • 设计动机:纯光度优化会导致高斯在相同区域堆积,体素先验提供空间稀疏性归纳偏置
  2. 多视角重要性驱动的粗-细提案:

    • 功能:从多视角聚合SSIM和L1误差构建逐像素重要性图 \(s(p) = \sigma(\alpha O(p) + \beta \text{SSIM}_\text{agg}(p) + \gamma \text{L1}_\text{agg}(p))\)
    • 核心思路:粗阶段用较大扰动 \(\sigma_\text{coarse}\) 填补覆盖缺口,细阶段用 \(\sigma_\text{fine} < \sigma_\text{coarse}\) 精修。视角子集大小随训练退火——早期广覆盖,后期聚焦
    • 设计动机:多视角聚合确保一致性(单视角可能有遮挡偏差),粗-细策略平衡探索与精修
  3. MH接受概率的闭式推导:

    • 功能:推导实用MH接受规则 \(\rho(i) = \sigma(I(i)) \cdot D(v')\),其中 \(D(v') = 1/(1 + \lambda_v c_\Theta(v'))\)
    • 核心思路:用重要性分数 \(I(i)\) 近似光度变化 \(-\Delta\mathcal{L}\),将不可计算的逆提案密度吸收进体素因子。仅当高重要性且低拥挤时高概率接受
    • 设计动机:避免每次提案都重新渲染所有视角计算完整损失变化(计算上不可行)

损失函数 / 训练策略

总损失:\(\mathcal{L}(\Theta) = (1-\lambda)\mathcal{L}_1 + \lambda \mathcal{L}_\text{D-SSIM} + \lambda_\text{opacity}\bar{\alpha} + \lambda_\text{scale}\bar{\Sigma}\)

参数设置:\(\lambda = 0.2\)\(\lambda_\text{opacity} = 0.01\)\(\lambda_\text{scale} = 0.01\)\(\alpha = 0.8\)\(\beta = \gamma = 0.5\)。重要性权重的融合系数分别控制不透明度、结构相似性和光度保真度。

实验关键数据

主实验(表格)

Mip-NeRF360 + Tanks&Temples + Deep Blending综合结果:

方法 PSNR↑ SSIM↑ LPIPS↓ 高斯数(M)
3DGS 基线 基线 基线 基线
3DGS-MCMC 与本文接近 与本文接近 与本文接近 与本文接近
MH-3DGS (Ours) 匹配或小幅超越 匹配或小幅超越 匹配或小幅超越 更少

收敛速度对比(达到目标PSNR的时间):

目标PSNR MH-3DGS时间 3DGS-MCMC时间 加速
21 dB 16.30s 17.08s 1.05x
24 dB 61.34s 98.38s 1.60x
27 dB 287.01s 341.64s 1.19x
30 dB 851.52s 983.05s ~2.2分钟更快

消融实验

  • 粗-细提案策略:仅粗阶段会在局部区域过度采样,仅细阶段无法填补大覆盖缺口
  • 体素先验:去除后同一区域高斯堆积严重,LPIPS明显恶化
  • 视角子集退火:固定全视角增加计算开销但收益有限

关键发现

  • MH-3DGS用更少的高斯达到了与3DGS-MCMC相当或更好的渲染质量
  • 达到30 dB PSNR比3DGS-MCMC快约2.2分钟
  • 严格证明了3DGS的启发式稠密化规则可被重铸为有原则的MH更新
  • 全局重要性驱动提案 + 接受-拒绝测试 vs. 局部全接受SGLD链——前者在收敛性上有本质优势

亮点与洞察

  • 理论严谨:严格证明了MH采样器的详细平衡性,将3DGS稠密化与贝叶斯推断建立了形式化联系
  • 实用高效:接受概率的闭式近似(logistic × 体素因子)使计算开销极小
  • 与3DGS-MCMC的根本区别:全局MH链 vs 局部SGLD链——MH能做长跳跃到未探索区域
  • 粗-细提案策略具有通用性,可应用于其他基于点的3D重建方法

局限与展望

  • 重要性近似 \(-\Delta\mathcal{L} \approx I(i)\) 的精确性未严格保证
  • 逆提案密度被简单吸收而非精确计算,影响MH链的理论精确性
  • 体素先验的分辨率选择需要针对场景调整
  • 目前仅支持静态场景,动态场景扩展有待研究
  • 实际PSNR提升相对3DGS-MCMC较小(主要优势在效率和高斯数量)

相关工作与启发

  • 3DGS-MCMC (Kheradmand et al.):最直接的基线,SGLD + 不透明度重定位,但固定高斯数
  • NeRF中的MH采样 (Goli et al., Bortolon et al.):将MH用于特定组件,本文将其推广为整体框架
  • Rota Bulò et al.:误差优先稠密化但设全局限制
  • 建立了概率采样与3D重建密度控制之间的理论桥梁

评分

⭐⭐⭐⭐ — 理论贡献扎实,将启发式密度控制提升为有原则的概率框架,实验验证充分

相关论文