跳转至

3D Student Splatting and Scooping (SSS)

会议: CVPR 2025
arXiv: 2503.10148
代码: https://github.com/realcrane/3D-student-splating-and-scooping
领域: 3D视觉 / 新视角合成 / 3D Gaussian Splatting
关键词: Student-t Distribution, Negative Components, Scooping, SGHMC, Parameter Efficiency

一句话总结

提出SSS(Student Splatting and Scooping),用前所未有的三重创新改进3DGS范式:(1) 用Student-t分布替代高斯分布作为混合组件(可学习的尾部厚度,从Cauchy到Gaussian连续变化);(2) 引入负密度组件(scooping减去颜色)扩展到非单调混合模型;(3) 用SGHMC采样替代SGD解耦参数优化,在Mip-NeRF360/T&T/Deep Blending上6/9指标取得最优,且参数效率极高——用最少18%的组件数即可匹配或超越3DGS。

背景与动机

3DGS本质是一个非归一化高斯混合模型,其成功依赖于三个要素:高斯分布作为组件、splatting式正密度叠加、SGD优化。但三者都有改进空间:(1) 高斯分布是低通滤波器,建模不连续目标(边界、纹理)时效率低——需要大量组件来拟合尖锐变化;(2) 只用正密度限制了表达能力——无法"挖去"不需要的区域;(3) 引入更灵活分布后参数耦合加剧,SGD容易陷入局部最优。近期工作(GES、3DHGS、MCMC-GS)分别探索了这些方向但未统一。

核心问题

如何从根本上改进3DGS的分布选择、密度空间和优化方式这三个基础元素,使其更具表达力和参数效率?

方法详解

整体框架

SSS是3DGS的全面替代,将三个方面同时改进: - 组件:高斯 → Student-t分布(可学习自由度\(\nu\)) - 密度空间:仅正密度 → 正+负密度(splatting + scooping) - 优化:SGD → SGHMC采样(摩擦+噪声调度)

关键设计

  1. Student-t分布作为基本组件\(T(x|\nu) = [1 + \frac{1}{\nu}(x-\mu)^T\Sigma^{-1}(x-\mu)]^{-\frac{\nu+3}{2}}\)。当\(\nu\to 1\)趋近Cauchy(肥尾,单个组件覆盖大面积),\(\nu\to\infty\)趋近高斯。\(\nu\)可学习,使SSS成为从无穷分布族中学习的混合模型。关键性质:t分布在仿射变换和变量边缘化下有闭式解,可直接用于splatting的投影和积分。

  2. 负密度组件(Scooping)\(o \in [-1, 1]\),负不透明度相当于减去颜色。用tanh约束不透明度范围。关键insight:用环面(torus)拟合实验展示,2个组件(1正+1负)能拟合5个正组件才能拟合的拓扑结构——正组件覆盖环面,负组件挖去中间的洞。

  3. SGHMC采样优化:引入Student-t的\(\nu\)使参数耦合加剧(改变\(\nu\)就改变了分布族,影响\(\mu\)\(\Sigma\)的最优值)。SGHMC通过摩擦项解耦参数,自适应摩擦+噪声调度:低不透明度组件接受更多摩擦和噪声进行探索,高不透明度组件关闭摩擦做局部搜索。Burn-in阶段无摩擦做大范围探索,之后加摩擦做精细利用。

  4. 组件回收:低不透明度组件回收到高不透明度组件位置,通过最小化回收前后的渲染差异来确定新协方差矩阵。推导出t分布下的闭式回收公式(涉及Beta函数)。

损失函数 / 训练策略

$\(L = (1-\epsilon_{D-SSIM})L_1 + \epsilon_{D-SSIM}L_{D-SSIM} + \epsilon_o\sum_i|o_i|_1 + \epsilon_\Sigma\sum_i\sum_j|\lambda_{i,j}|_1\)$ - RTX 4090,45min训练(Mip-NeRF 360),渲染71 FPS

实验关键数据

标准基准(默认组件数)

数据集 指标 3DGS 3DHGS MCMC SSS
Mip-NeRF360 PSNR 28.69 29.56 29.89 29.90
Mip-NeRF360 LPIPS 0.182 0.178 0.190 0.145
T&T PSNR 23.14 24.49 24.29 24.87
T&T LPIPS 0.183 0.169 0.190 0.138
Deep Blending PSNR 29.41 29.76 29.67 30.07

SSS在9个指标中6个最优,2个次优。LPIPS提升尤其显著(T&T: 0.138 vs 次优0.169,24.6%↓)。

参数效率(少量组件)

在T&T上,SSS用~300k组件(3DGS用1.1-2.6M): - SSS (468k) = 24.4 PSNR ≈ 3DHGS (全量) = 24.49 PSNR - 即最多82%的组件数减少

消融实验

方法 T&T PSNR SSIM LPIPS
3DGS 23.14 0.841 0.183
SGD + 正t分布 23.80 0.838 0.191
SGHMC + 高斯 24.52 0.869 0.150
SGHMC + 正t分布 24.53 0.864 0.155
完整SSS 24.87 0.873 0.138

每个组件都有贡献:t分布改善表达力,SGHMC改善优化,负组件进一步提升。

亮点

  • 三重创新的统一:分布、密度空间、优化同时改进,且三者相互增强——t分布更灵活但参数耦合加剧→SGHMC解耦→负组件进一步提升→SGHMC处理负组件的学习
  • 数学严谨:t分布投影、积分、回收公式均有闭式推导,全部提供完整数学证明
  • 参数效率惊人:相同质量减少82%组件,某些场景用不到2%的原始组件数即可
  • 肥尾的直觉解释:t分布的Cauchy端能用单个组件覆盖大均匀区域(如天空),高斯端精确拟合细节——自适应地在二者间选择
  • 环面实验:直观展示负组件如何"挖洞"——1正+1负=5个正组件的拓扑表达力

局限性 / 可改进方向

  • t分布仍是光滑对称的,尖锐不规则形状表达受限
  • SGHMC引入超参数(摩擦系数、噪声调度、负组件比例)需要调参
  • 训练时间比3DGS慢约2倍(45min vs 21min on Mip-NeRF360)
  • 浮动伪影问题(3DGS共性问题)仍存在
  • 负组件需要精心初始化——随机初始化负组件可能导致不稳定;论文中采用阈值策略将低不透明度正组件翻转为负组件
  • 当前仅支持静态场景,动态场景下t分布参数\(\nu\)的时间一致性优化是开放问题
  • 内存开销与3DGS基本持平(每组件额外1个\(\nu\)标量),但SGHMC需要额外存储动量项

与相关工作的对比

  • GES:也换了分布(广义指数),但不修改光栅化器用近似。SSS有闭式解更精确,且SSS>>GES
  • 3DHGS:半高斯主要改善边界。SSS通过连续的尾部厚度学习提供更通用的解决方案
  • 3DGS-MCMC:首先提出SGLD采样。SSS升级到SGHMC并结合t分布和负组件,全面超越

启发与关联

  • Student-t分布的"分布族学习"思路可推广到其他基于核的表示(如SPH、KDE)
  • 负密度/减法的设计思路可推广到其他神经渲染任务
  • 之前的3D-HGS关注边界不连续,SSS关注分布族灵活性——两个互补的改进方向- 组件回收机制的思路(基于渲染差异最小化)可用于其他自适应密度控制场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 三重创新统一在一个框架中,数学推导深入,负密度+t分布+SGHMC的组合前所未有
  • 实验充分度: ⭐⭐⭐⭐⭐ 3数据集×11场景×3指标标准评估+165组不同组件数对比+消融+可视化+采样效果分析
  • 写作质量: ⭐⭐⭐⭐ 数学推导严谨完整,but文章较长较密集
  • 价值: ⭐⭐⭐⭐⭐ 对3DGS范式的根本性改进,代码开源,可直接替代3DGS作为更强基础组件