HyperGaussians: High-Dimensional Gaussian Splatting for High-Fidelity Animatable Face Avatars¶
会议: CVPR 2026
arXiv: 2507.02803
代码: https://gserifi.github.io/HyperGaussians
领域: 3D视觉
关键词: 高斯溅射, 人脸头像, 高维高斯, 面部动画, 条件分布
一句话总结¶
提出HyperGaussians,将3DGS扩展到高维多元高斯,通过条件分布建模表情相关的属性变化+逆协方差技巧实现高效条件化,作为即插即用模块集成到FlashAvatar和GaussianHeadAvatar中可显著提升高频细节质量。
研究背景与动机¶
- 领域现状: 3D高斯溅射(3DGS)已成为人脸头像建模的标准方法,当前SOTA方法将高斯绑定到3DMM网格上,通过MLP预测表情依赖的偏移来处理动态效果。
- 现有痛点: 现有方法在非线性形变(眼睛闭合、嘴巴张开)、复杂光照效果(眼镜镜面反射)和细微结构(牙齿间隙、眼镜框架)上仍然表现不佳——这些高频细节正是造成"恐怖谷"效应的关键。
- 核心矛盾: 3D高斯原语本身的表达能力有限——每个高斯只有位置/旋转/缩放/颜色几个属性,即使用MLP预测表情依赖的偏移,属性的线性组合在表达能力上依然受限。
- 本文目标: 如何在不重新设计整个pipeline的前提下,增强3D高斯原语本身的表达能力以捕获高频动态效果?
- 切入角度: 受HyperNeRF启发——在高维空间中建模变形场并切片可以处理拓扑变化。将这一思想应用到高斯原语上:让每个高斯在高维空间中是一个多元高斯分布,通过条件化(切片)得到表情相关的3D高斯。
- 核心 idea: 将3D高斯扩展为(m+n)维的HyperGaussian,通过对n维潜在嵌入条件化来获得动态自适应的3D属性,并用逆协方差技巧保持高效。
方法详解¶
整体框架¶
HyperGaussians是一个即插即用的表示增强模块。原始pipeline(如FlashAvatar)中MLP输出表情依赖的偏移\(\Delta\mu, \Delta r, \Delta s\);使用HyperGaussians后,MLP改为输出一个潜在向量\(z_\psi\),通过高维高斯的条件分布计算得到MAP估计的偏移量。整个过程只需替换高斯表示,其他部分(损失函数、超参数)完全不变。
关键设计¶
-
HyperGaussian高维扩展:
- 功能:将标准3D高斯扩展为具有额外n维潜在空间的(m+n)维多元高斯,增强表达能力。
- 核心思路:定义联合分布\(\gamma = (\gamma_a, \gamma_b)^\top \sim \mathcal{N}(\mu, \Sigma)\),其中\(\gamma_a \in \mathbb{R}^m\)对应高斯属性(位置/旋转/缩放),\(\gamma_b \in \mathbb{R}^n\)对应潜在嵌入。通过条件化\(p(\gamma_a|\gamma_b)\)在给定潜在嵌入时获得普通3D高斯:\(\mu_{a|b} = \mu_a + \Sigma_{ab}\Sigma_{bb}^{-1}(\gamma_b - \mu_b)\)。贝叶斯视角下这等价于MAP估计,先验\(p(\gamma_a)\)起到隐式正则化作用。
- 设计动机:相比NDGS只建模位置的条件分布(旋转/缩放独立于潜码),HyperGaussians还建模\(p(\Delta r|z)\)和\(p(\Delta s|z)\),允许高斯根据潜码旋转和缩放,表达能力严格更强。
-
逆协方差技巧 (Inverse Covariance Trick):
- 功能:将高维条件化的计算复杂度从\(O(n^3 + mn^2)\)降到\(O(m^3 + m^2n)\)——从n的三次方降到线性!
- 核心思路:重新参数化为精度矩阵\(\Lambda = \Sigma^{-1}\),条件均值变为\(\mu_{a|b} = \mu_a - \Lambda_{aa}^{-1}\Lambda_{ab}(\gamma_b - \mu_b)\),条件协方差为\(\Sigma_{a|b} = \Lambda_{aa}^{-1}\)。只需存储和求逆小矩阵\(\Lambda_{aa} \in \mathbb{R}^{m \times m}\)(m=3或4),参数量从\(O((m+n)^2)\)降到\(O(m^2 + mn)\)。
- 设计动机:朴素实现在高潜在维度(n>8)时速度和内存都不可接受。n=8时速度提升150%,n=128时提升15000%,内存减少48-90%。这使得大潜在维度成为可能。
-
即插即用集成策略:
- 功能:无需修改架构或超参数,直接替换3DGS原语即可提升性能。
- 核心思路:以FlashAvatar为例,将变形MLP的输出从直接的偏移改为潜码\(z_\psi\),通过HyperGaussian的条件分布计算偏移。所有其他组件(损失、训练策略、学习率等)保持不变。潜在维度n=8表现最佳。GaussianHeadAvatar也用同样方式集成。
- 设计动机:正交于架构设计的改进——不碰模型架构就能提升质量,意味着可以与任何未来的架构改进叠加。
损失函数 / 训练策略¶
完全继承原方法(FlashAvatar/GaussianHeadAvatar)的损失函数和超参数。HyperGaussian参数的学习率设为\(10^{-4}\)。FlashAvatar用~15k高斯训练30k迭代(15-20分钟/RTX 4090),GaussianHeadAvatar训练600k迭代(约2天),HyperGaussians仅增加约1%训练时间(30分钟)。关键设计决策:对每个高斯基元分别维护位置、旋转、缩放三个独立的HyperGaussian分布,使用Cholesky参数化保证协方差矩阵正定。latent维度\(n=8\)通过消融确定为最佳平衡点。精度矩阵的参数化只需\(\Lambda_{aa}\)和\(\Lambda_{ab}\)两个块,显著减少内存占用。代码已开源以便其他研究者集成到自己的pipeline中。
实验关键数据¶
主实验 (29个受试者, 6个数据集)¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| SplattingAvatar | 28.58 | 0.9396 | 0.0902 |
| MonoGaussianAvatar | 29.94 | 0.9456 | 0.0655 |
| FlashAvatar | 29.43 | 0.9466 | 0.0511 |
| Ours (FA) | 29.99 | 0.9510 | 0.0498 |
| GaussianHeadAvatar | 24.10 | 0.8819 | 0.2027 |
| Ours (GHA) | 24.38 | 0.8819 | 0.1977 |
消融实验¶
| 配置 | LPIPS↓ | FPS |
|---|---|---|
| HyperGaussians (n=8) | 0.0498 | 300 |
| 增加MLP深度 (同参数量) | 0.0572 (+15%) | 158 (-47%) |
| 增加MLP宽度 (同参数量) | 0.0512 (+3%) | 178 (-41%) |
关键发现¶
- HyperGaussians在相同参数量下显著优于增加MLP容量:更好的LPIPS且不损失速度(300 FPS vs 158 FPS)。
- 改善在高频细节上最明显:镜面反射、眼镜框架、牙齿间隙、皮肤皱纹——这些恰好是标准3DGS最薄弱的地方,说明高维条件化确实增强了局部表达能力。
- 即使n=1(最小扩展)也已经优于baseline,n=8是最佳平衡点,n=128在逆协方差技巧下仍可行但收益递减。
- 逆协方差技巧是实用性的关键——没有它,n=128几乎不可行(速度提升15000%,内存减少>90%)。
- 在跨表情驱动(cross-reenactment)场景下同样有效,说明学到的是通用的高频建模能力而非过拟合到特定表情。
- 多视图设置(GaussianHeadAvatar)中,HyperGaussians同样提升了wrinkles和reflections质量,且训练开销仅增加1%。
- 逆协方差技巧效率数据:\(n=8\)时,naïve实现42MB/条件化→逆协方差22MB(-48%);\(n=128\)时内存减少>90%。
- 跨数据集一致性:在INSTA、NerFace、IMAvatar、NeRSemble等6个不同数据集上表现一致。
- 训练收敛速度也有提升——HyperGaussians在较少迭代次数下就能达到baseline的最终质量。
亮点与洞察¶
- 贝叶斯视角的优雅统一:将NDGS/4DGS/6DGS/7DGS等多维高斯扩展统一为条件高斯分布的特例,并指出它们的表达能力限制(不能条件旋转/缩放)。这种理论统一本身就有重要价值。
- 正交于架构的改进:不碰任何模型设计就能提升质量,这意味着HyperGaussians可以与未来的任何架构改进自由组合——这种"免费升级"的特性非常有吸引力。
- 逆协方差技巧的通用性:不仅适用于人脸头像,任何需要高维高斯条件化的场景都可以受益。从\(O(n^3)\)到\(O(n)\)的加速对实时应用有重大意义。
局限与展望¶
- 目前只在人脸头像上验证,全身动态场景(衣服、头发飘动等更大范围的非线性形变)的效果未知。
- 条件协方差矩阵 \(\Sigma_{a|b} = \Lambda_{aa}^{-1}\) 在当前实现中未被利用——它包含了3D高斯参数的不确定性信息,可以用于主动学习或渲染质量评估。
- 需要预计算/优化精度矩阵的块 \(\Lambda_{aa}\) 和 \(\Lambda_{ab}\),虽然参数量从 \(O((m+n)^2)\) 降到 \(O(m^2+mn)\),但实现上比标准3DGS更复杂。
- 对于非常极端的表情(训练分布外),条件分布的外推能力可能有限——多元高斯的线性条件化假设了参数间的线性关系。
- 定量提升虽然一致但幅度不大(PSNR +0.56, LPIPS -0.0013),视觉改善主要集中在高频细节区域。
- latent维度 \(n=8\) 的选择通过消融确定,但不同场景可能需要不同的最优维度。自适应维度选择机制有待发展。
相关工作与启发¶
- vs NDGS/6DGS/7DGS: 这些方法是HyperGaussians的特例——它们不能条件旋转/缩放,且在大潜在维度时计算不可行。HyperGaussians解决了这两个核心限制,且消除了大形变时高斯消失的问题。
- vs FlashAvatar: 只替换高斯表示就把LPIPS从0.0511降到0.0498,PSNR从29.43升到29.99,充分说明了底层表示改进的价值。FlashAvatar用MLP预测偏移量是"外部调制",HyperGaussians将调制内建到表示本身中。
- vs HyperNeRF: 高维建模变形的理念来自HyperNeRF,但HyperGaussians将其适配到高斯溅射框架中,结合逆协方差技巧实现了实时渲染(300 FPS)。HyperNeRF的“切片”思想和HyperGaussians的“条件化”形式上对应,但实现和理论框架完全不同。
- vs MonoGaussianAvatar: 需要100k+高斯和12小时训练,而FlashAvatar+HyperGaussians只需~15k高斯和20分钟,性能还更好。说明更好的表示比更多的参数更重要。- vs SplattingAvatar: SplattingAvatar不考虑表情变化对外观的影响(如镜面反射位移),导致渲染模糊。HyperGaussians通过条件分布自然地建模了这种依赖关系。
- 对未来的展望: HyperGaussians的框架可以应用于人脸以外的动态场景(全身、动物、可变形物体),逆协方差技巧使得更高的latent维度也可行。
- 与4DGS的区别: 4DGS增加时间维度但需要自定义CUDA kernel,HyperGaussians增加任意维度且通过逆协方差技巧可用标准3DGS光栅化器。
- 与Gaussian Mixture Model视角: NDGS本质是高斯混合模型的多维扩展,但密度函数依赖联合分布导致大形变时不稳定;HyperGaussians用条件分布避免了这一问题。由于条件均值的计算等价于MAP估计,先验\(p(\mathcal{A})\)起到隐式正则化作用,有助于在测试时保持细节。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 高维高斯+贝叶斯视角+逆协方差技巧三重创新,理论深度突出,统一了多种现有方法
- 实验充分度: ⭐⭐⭐⭐⭐ 29个受试者6个数据集非常充分,含消融、速度对比、单目/多视图设置
- 写作质量: ⭐⭐⭐⭐⭐ 数学推导清晰优雅,贝叶斯视角的统一分析尤其出色
- 价值: ⭐⭐⭐⭐⭐ 即插即用的表示升级,通用性强,逆协方差技巧有广泛应用前景
相关论文¶
- [CVPR 2026] 3D Gaussian Splatting with Self-Constrained Priors for High Fidelity Surface Reconstruction
- [CVPR 2026] Motion-Aware Animatable Gaussian Avatars Deblurring
- [CVPR 2026] ProgressiveAvatars: Progressive Animatable 3D Gaussian Avatars
- [CVPR 2026] TopoMesh: High-Fidelity Mesh Autoencoding via Topological Unification
- [CVPR 2026] Neural Gabor Splatting: Enhanced Gaussian Splatting with Neural Gabor for High-frequency Surface Reconstruction