HyperGaussians: High-Dimensional Gaussian Splatting for High-Fidelity Animatable Face Avatars¶

会议: CVPR 2026
arXiv: 2507.02803
代码: https://gserifi.github.io/HyperGaussians
领域: 3D视觉
关键词: 高斯溅射, 人脸头像, 高维高斯, 面部动画, 条件分布

一句话总结¶

提出HyperGaussians，将3DGS扩展到高维多元高斯，通过条件分布建模表情相关的属性变化+逆协方差技巧实现高效条件化，作为即插即用模块集成到FlashAvatar和GaussianHeadAvatar中可显著提升高频细节质量。

研究背景与动机¶

领域现状: 3D高斯溅射(3DGS)已成为人脸头像建模的标准方法，当前SOTA方法将高斯绑定到3DMM网格上，通过MLP预测表情依赖的偏移来处理动态效果。
现有痛点: 现有方法在非线性形变（眼睛闭合、嘴巴张开）、复杂光照效果（眼镜镜面反射）和细微结构（牙齿间隙、眼镜框架）上仍然表现不佳——这些高频细节正是造成"恐怖谷"效应的关键。
核心矛盾: 3D高斯原语本身的表达能力有限——每个高斯只有位置/旋转/缩放/颜色几个属性，即使用MLP预测表情依赖的偏移，属性的线性组合在表达能力上依然受限。
本文目标: 如何在不重新设计整个pipeline的前提下，增强3D高斯原语本身的表达能力以捕获高频动态效果？
切入角度: 受HyperNeRF启发——在高维空间中建模变形场并切片可以处理拓扑变化。将这一思想应用到高斯原语上：让每个高斯在高维空间中是一个多元高斯分布，通过条件化(切片)得到表情相关的3D高斯。
核心 idea: 将3D高斯扩展为(m+n)维的HyperGaussian，通过对n维潜在嵌入条件化来获得动态自适应的3D属性，并用逆协方差技巧保持高效。

方法详解¶

整体框架¶

HyperGaussians是一个即插即用的表示增强模块。原始pipeline（如FlashAvatar）中MLP输出表情依赖的偏移\(\Delta\mu, \Delta r, \Delta s\)；使用HyperGaussians后，MLP改为输出一个潜在向量\(z_\psi\)，通过高维高斯的条件分布计算得到MAP估计的偏移量。整个过程只需替换高斯表示，其他部分（损失函数、超参数）完全不变。

关键设计¶

HyperGaussian高维扩展:
- 功能：将标准3D高斯扩展为具有额外n维潜在空间的(m+n)维多元高斯，增强表达能力。
- 核心思路：定义联合分布\(\gamma = (\gamma_a, \gamma_b)^\top \sim \mathcal{N}(\mu, \Sigma)\)，其中\(\gamma_a \in \mathbb{R}^m\)对应高斯属性（位置/旋转/缩放），\(\gamma_b \in \mathbb{R}^n\)对应潜在嵌入。通过条件化\(p(\gamma_a|\gamma_b)\)在给定潜在嵌入时获得普通3D高斯：\(\mu_{a|b} = \mu_a + \Sigma_{ab}\Sigma_{bb}^{-1}(\gamma_b - \mu_b)\)。贝叶斯视角下这等价于MAP估计，先验\(p(\gamma_a)\)起到隐式正则化作用。
- 设计动机：相比NDGS只建模位置的条件分布（旋转/缩放独立于潜码），HyperGaussians还建模\(p(\Delta r|z)\)和\(p(\Delta s|z)\)，允许高斯根据潜码旋转和缩放，表达能力严格更强。
逆协方差技巧 (Inverse Covariance Trick):
- 功能：将高维条件化的计算复杂度从\(O(n^3 + mn^2)\)降到\(O(m^3 + m^2n)\)——从n的三次方降到线性！
- 核心思路：重新参数化为精度矩阵\(\Lambda = \Sigma^{-1}\)，条件均值变为\(\mu_{a|b} = \mu_a - \Lambda_{aa}^{-1}\Lambda_{ab}(\gamma_b - \mu_b)\)，条件协方差为\(\Sigma_{a|b} = \Lambda_{aa}^{-1}\)。只需存储和求逆小矩阵\(\Lambda_{aa} \in \mathbb{R}^{m \times m}\)（m=3或4），参数量从\(O((m+n)^2)\)降到\(O(m^2 + mn)\)。
- 设计动机：朴素实现在高潜在维度(n>8)时速度和内存都不可接受。n=8时速度提升150%，n=128时提升15000%，内存减少48-90%。这使得大潜在维度成为可能。
即插即用集成策略:
- 功能：无需修改架构或超参数，直接替换3DGS原语即可提升性能。
- 核心思路：以FlashAvatar为例，将变形MLP的输出从直接的偏移改为潜码\(z_\psi\)，通过HyperGaussian的条件分布计算偏移。所有其他组件（损失、训练策略、学习率等）保持不变。潜在维度n=8表现最佳。GaussianHeadAvatar也用同样方式集成。
- 设计动机：正交于架构设计的改进——不碰模型架构就能提升质量，意味着可以与任何未来的架构改进叠加。

损失函数 / 训练策略¶

完全继承原方法（FlashAvatar/GaussianHeadAvatar）的损失函数和超参数。HyperGaussian参数的学习率设为\(10^{-4}\)。FlashAvatar用~15k高斯训练30k迭代(15-20分钟/RTX 4090)，GaussianHeadAvatar训练600k迭代(约2天)，HyperGaussians仅增加约1%训练时间(30分钟)。关键设计决策：对每个高斯基元分别维护位置、旋转、缩放三个独立的HyperGaussian分布，使用Cholesky参数化保证协方差矩阵正定。latent维度\(n=8\)通过消融确定为最佳平衡点。精度矩阵的参数化只需\(\Lambda_{aa}\)和\(\Lambda_{ab}\)两个块，显著减少内存占用。代码已开源以便其他研究者集成到自己的pipeline中。

实验关键数据¶

主实验 (29个受试者, 6个数据集)¶

方法	PSNR↑	SSIM↑	LPIPS↓
SplattingAvatar	28.58	0.9396	0.0902
MonoGaussianAvatar	29.94	0.9456	0.0655
FlashAvatar	29.43	0.9466	0.0511
Ours (FA)	29.99	0.9510	0.0498
GaussianHeadAvatar	24.10	0.8819	0.2027
Ours (GHA)	24.38	0.8819	0.1977

消融实验¶

配置	LPIPS↓	FPS
HyperGaussians (n=8)	0.0498	300
增加MLP深度 (同参数量)	0.0572 (+15%)	158 (-47%)
增加MLP宽度 (同参数量)	0.0512 (+3%)	178 (-41%)

关键发现¶

HyperGaussians在相同参数量下显著优于增加MLP容量：更好的LPIPS且不损失速度(300 FPS vs 158 FPS)。
改善在高频细节上最明显：镜面反射、眼镜框架、牙齿间隙、皮肤皱纹——这些恰好是标准3DGS最薄弱的地方，说明高维条件化确实增强了局部表达能力。
即使n=1（最小扩展）也已经优于baseline，n=8是最佳平衡点，n=128在逆协方差技巧下仍可行但收益递减。
逆协方差技巧是实用性的关键——没有它，n=128几乎不可行（速度提升15000%，内存减少>90%）。
在跨表情驱动(cross-reenactment)场景下同样有效，说明学到的是通用的高频建模能力而非过拟合到特定表情。
多视图设置(GaussianHeadAvatar)中，HyperGaussians同样提升了wrinkles和reflections质量，且训练开销仅增加1%。
逆协方差技巧效率数据：\(n=8\)时，naïve实现42MB/条件化→逆协方差22MB(-48%)；\(n=128\)时内存减少>90%。
跨数据集一致性：在INSTA、NerFace、IMAvatar、NeRSemble等6个不同数据集上表现一致。
训练收敛速度也有提升——HyperGaussians在较少迭代次数下就能达到baseline的最终质量。

亮点与洞察¶

贝叶斯视角的优雅统一：将NDGS/4DGS/6DGS/7DGS等多维高斯扩展统一为条件高斯分布的特例，并指出它们的表达能力限制（不能条件旋转/缩放）。这种理论统一本身就有重要价值。
正交于架构的改进：不碰任何模型设计就能提升质量，这意味着HyperGaussians可以与未来的任何架构改进自由组合——这种"免费升级"的特性非常有吸引力。
逆协方差技巧的通用性：不仅适用于人脸头像，任何需要高维高斯条件化的场景都可以受益。从\(O(n^3)\)到\(O(n)\)的加速对实时应用有重大意义。

局限与展望¶

目前只在人脸头像上验证，全身动态场景（衣服、头发飘动等更大范围的非线性形变）的效果未知。
条件协方差矩阵 \(\Sigma_{a|b} = \Lambda_{aa}^{-1}\) 在当前实现中未被利用——它包含了3D高斯参数的不确定性信息，可以用于主动学习或渲染质量评估。
需要预计算/优化精度矩阵的块 \(\Lambda_{aa}\) 和 \(\Lambda_{ab}\)，虽然参数量从 \(O((m+n)^2)\) 降到 \(O(m^2+mn)\)，但实现上比标准3DGS更复杂。
对于非常极端的表情(训练分布外)，条件分布的外推能力可能有限——多元高斯的线性条件化假设了参数间的线性关系。
定量提升虽然一致但幅度不大（PSNR +0.56, LPIPS -0.0013），视觉改善主要集中在高频细节区域。
latent维度 \(n=8\) 的选择通过消融确定，但不同场景可能需要不同的最优维度。自适应维度选择机制有待发展。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 高维高斯+贝叶斯视角+逆协方差技巧三重创新，理论深度突出，统一了多种现有方法
实验充分度: ⭐⭐⭐⭐⭐ 29个受试者6个数据集非常充分，含消融、速度对比、单目/多视图设置
写作质量: ⭐⭐⭐⭐⭐ 数学推导清晰优雅，贝叶斯视角的统一分析尤其出色
价值: ⭐⭐⭐⭐⭐ 即插即用的表示升级，通用性强，逆协方差技巧有广泛应用前景