Metropolis-Hastings Sampling for 3D Gaussian Reconstruction¶
会议: NeurIPS 2025
arXiv: 2506.12945
代码: 项目页面
领域: 三维视觉 / 新视角合成
关键词: 3D高斯溅射, Metropolis-Hastings, 自适应密度控制, 新视角合成, MCMC
一句话总结¶
提出自适应Metropolis-Hastings框架替代3DGS中的启发式密度控制机制,通过多视角光度误差驱动的概率采样实现更高效的高斯分布推断,收敛速度快于3DGS-MCMC。
研究背景与动机¶
3D高斯溅射(3DGS)通过显式3D高斯实现实时渲染,但严重依赖启发式密度控制(克隆、分裂、剪枝)——固定阈值过松导致冗余高斯和内存浪费,过紧则牺牲保真度。
现有改进的局限:
- 3DGS-MCMC:用SGLD(随机梯度朗之万动力学)替代启发式,但需提前固定高斯总数,且为局部、全接受的链——无法进行全局跳跃
- 其他方法:Error-based densification、homodirectional gradient等仍依赖阈值或固定上限
- 核心问题:缺少一个有理论保证、自适应场景复杂度的稠密化机制
方法详解¶
整体框架¶
将3DGS稠密化和剪枝重构为统一的Metropolis-Hastings(MH)采样过程:
- 定义场景表示 \(\Theta = \{g_i\}_{i=1}^N\) 的后验 \(\pi(\Theta) \propto e^{-\mathcal{E}(\Theta)}\)
- 通过重要性驱动的提案生成候选高斯
- 用MH接受-拒绝测试决定是否保留
- 低不透明度高斯通过重定位机制回收
关键设计¶
-
贝叶斯场景后验与体素先验:
- 功能:定义负对数后验 \(\mathcal{E}(\Theta) = \mathcal{L}(\Theta) + \lambda_v \sum_{v \in \mathcal{V}} \ln(1 + c_\Theta(v))\)
- 核心思路:光度损失 \(\mathcal{L}\) 对应似然,体素先验惩罚拥挤区域。体素密度 \(c_\Theta(v)\) 的对数形式使空体素几乎无惩罚而拥挤体素惩罚快速增长
- 设计动机:纯光度优化会导致高斯在相同区域堆积,体素先验提供空间稀疏性归纳偏置
-
多视角重要性驱动的粗-细提案:
- 功能:从多视角聚合SSIM和L1误差构建逐像素重要性图 \(s(p) = \sigma(\alpha O(p) + \beta \text{SSIM}_\text{agg}(p) + \gamma \text{L1}_\text{agg}(p))\)
- 核心思路:粗阶段用较大扰动 \(\sigma_\text{coarse}\) 填补覆盖缺口,细阶段用 \(\sigma_\text{fine} < \sigma_\text{coarse}\) 精修。视角子集大小随训练退火——早期广覆盖,后期聚焦
- 设计动机:多视角聚合确保一致性(单视角可能有遮挡偏差),粗-细策略平衡探索与精修
-
MH接受概率的闭式推导:
- 功能:推导实用MH接受规则 \(\rho(i) = \sigma(I(i)) \cdot D(v')\),其中 \(D(v') = 1/(1 + \lambda_v c_\Theta(v'))\)
- 核心思路:用重要性分数 \(I(i)\) 近似光度变化 \(-\Delta\mathcal{L}\),将不可计算的逆提案密度吸收进体素因子。仅当高重要性且低拥挤时高概率接受
- 设计动机:避免每次提案都重新渲染所有视角计算完整损失变化(计算上不可行)
损失函数 / 训练策略¶
总损失:\(\mathcal{L}(\Theta) = (1-\lambda)\mathcal{L}_1 + \lambda \mathcal{L}_\text{D-SSIM} + \lambda_\text{opacity}\bar{\alpha} + \lambda_\text{scale}\bar{\Sigma}\)
参数设置:\(\lambda = 0.2\),\(\lambda_\text{opacity} = 0.01\),\(\lambda_\text{scale} = 0.01\),\(\alpha = 0.8\),\(\beta = \gamma = 0.5\)。重要性权重的融合系数分别控制不透明度、结构相似性和光度保真度。
实验关键数据¶
主实验(表格)¶
Mip-NeRF360 + Tanks&Temples + Deep Blending综合结果:
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | 高斯数(M) |
|---|---|---|---|---|
| 3DGS | 基线 | 基线 | 基线 | 基线 |
| 3DGS-MCMC | 与本文接近 | 与本文接近 | 与本文接近 | 与本文接近 |
| MH-3DGS (Ours) | 匹配或小幅超越 | 匹配或小幅超越 | 匹配或小幅超越 | 更少 |
收敛速度对比(达到目标PSNR的时间):
| 目标PSNR | MH-3DGS时间 | 3DGS-MCMC时间 | 加速 |
|---|---|---|---|
| 21 dB | 16.30s | 17.08s | 1.05x |
| 24 dB | 61.34s | 98.38s | 1.60x |
| 27 dB | 287.01s | 341.64s | 1.19x |
| 30 dB | 851.52s | 983.05s | ~2.2分钟更快 |
消融实验¶
- 粗-细提案策略:仅粗阶段会在局部区域过度采样,仅细阶段无法填补大覆盖缺口
- 体素先验:去除后同一区域高斯堆积严重,LPIPS明显恶化
- 视角子集退火:固定全视角增加计算开销但收益有限
关键发现¶
- MH-3DGS用更少的高斯达到了与3DGS-MCMC相当或更好的渲染质量
- 达到30 dB PSNR比3DGS-MCMC快约2.2分钟
- 严格证明了3DGS的启发式稠密化规则可被重铸为有原则的MH更新
- 全局重要性驱动提案 + 接受-拒绝测试 vs. 局部全接受SGLD链——前者在收敛性上有本质优势
亮点与洞察¶
- 理论严谨:严格证明了MH采样器的详细平衡性,将3DGS稠密化与贝叶斯推断建立了形式化联系
- 实用高效:接受概率的闭式近似(logistic × 体素因子)使计算开销极小
- 与3DGS-MCMC的根本区别:全局MH链 vs 局部SGLD链——MH能做长跳跃到未探索区域
- 粗-细提案策略具有通用性,可应用于其他基于点的3D重建方法
局限与展望¶
- 重要性近似 \(-\Delta\mathcal{L} \approx I(i)\) 的精确性未严格保证
- 逆提案密度被简单吸收而非精确计算,影响MH链的理论精确性
- 体素先验的分辨率选择需要针对场景调整
- 目前仅支持静态场景,动态场景扩展有待研究
- 实际PSNR提升相对3DGS-MCMC较小(主要优势在效率和高斯数量)
相关工作与启发¶
- 3DGS-MCMC (Kheradmand et al.):最直接的基线,SGLD + 不透明度重定位,但固定高斯数
- NeRF中的MH采样 (Goli et al., Bortolon et al.):将MH用于特定组件,本文将其推广为整体框架
- Rota Bulò et al.:误差优先稠密化但设全局限制
- 建立了概率采样与3D重建密度控制之间的理论桥梁
评分¶
⭐⭐⭐⭐ — 理论贡献扎实,将启发式密度控制提升为有原则的概率框架,实验验证充分
相关论文¶
- [CVPR 2025] Depth-Guided Bundle Sampling for Efficient Generalizable Neural Radiance Field Reconstruction
- [NeurIPS 2025] Quantifying and Alleviating Co-Adaptation in Sparse-View 3D Gaussian Splatting
- [ICCV 2025] MuGS: Multi-Baseline Generalizable Gaussian Splatting Reconstruction
- [CVPR 2025] Identity-preserving Distillation Sampling by Fixed-Point Iterator
- [CVPR 2026] Sampling-Aware 3D Spatial Analysis in Multiplexed Imaging