FATE: Full-head Gaussian Avatar with Textural Editing from Monocular Video¶

会议: CVPR 2025
arXiv: 2411.15604
代码: 有（项目主页）
领域: 人体理解 / 头部重建
关键词: 高斯头部化身, 纹理编辑, 采样密化, 神经烘焙, FLAME

一句话总结¶

提出 FATE，从单目视频重建可动画化的全头高斯化身，通过基于采样的密化策略（替代阈值分裂）、神经烘焙（将离散高斯转为连续UV纹理图以支持编辑）和通用补全框架（合成后脑外观），实现仅 49K 高斯即达到 28.37dB PSNR 的高效高质量重建。

研究背景与动机¶

领域现状：基于3D高斯的头部化身重建快速发展（如 FlashAvatar、SplattingAvatar）。这些方法将高斯绑定到 FLAME 网格面上实现动画驱动，但存在密化策略不佳和无法编辑纹理的问题。

现有痛点：（1）标准3DGS 的阈值策略密化冗余——在梯度超过阈值的位置分裂高斯，但头部不同区域（如头发 vs 皮肤）所需密度差异大，统一阈值导致某些区域过密其他区域不足；（2）离散高斯点无法直接编辑——用户无法像编辑纹理图那样修改头部外观（如改发色、加妆容）；（3）单目视频缺少后脑信息。

核心矛盾：高斯泼溅的离散性 vs 纹理编辑的连续性需求——高斯是散布在3D空间的独立点，无法形成可编辑的连续表面。

切入角度：（1）用基于位置梯度的重要性采样代替阈值密化；（2）"神经烘焙"将离散高斯属性映射到连续 UV 空间。

核心 idea：采样密化 + 神经烘焙到UV空间 + 生成模型补全后脑 = 可编辑的全头高斯化身。

方法详解¶

关键设计¶

基于采样的密化策略:
- 功能：自适应地在梯度大的面上添加新高斯，避免冗余
- 核心思路：计算 FLAME 每个面上高斯的位置梯度幅值作为重要性权重，用重要性采样在高梯度面上生成新高斯。概率与梯度幅值成正比，自然地在细节丰富区域（如眼周/嘴唇）添加更多高斯
- 设计动机：标准阈值分裂需要反复调参且容易过密（SplattingAvatar 需 558K 高斯），采样策略将 FATE 控制在 49K（10倍压缩）
神经烘焙（Neural Baking）:
- 功能：将离散高斯属性转换为连续 UV 纹理图，支持纹理编辑
- 核心思路：训练一个 U-Net 学习将高斯属性（颜色/球谐/不透明度）平滑地映射到 FLAME 的 UV 空间：\(f(\mathbf{p}) = (\mathcal{F} * \mathcal{H} * \mathcal{B})(\mathbf{p})\)，其中 \(\mathcal{F}\) 是高斯特征映射，\(\mathcal{H}\) 是高斯扩散核，\(\mathcal{B}\) 是 U-Net 平滑。烘焙后用户可以直接在 UV 图上编辑并回转到高斯渲染
- 设计动机：直接光栅化高斯到 UV 会产生稀疏离散的点图，不可编辑。U-Net 将离散采样插值为连续纹理
通用后脑补全框架:
- 功能：从单目正面视频合成未见的后脑外观
- 核心思路：用预训练的 SphereHead 生成模型，通过 PTI（Pivotal Tuning Inversion）将正面信息反演到生成空间，合成后脑的纹理和几何
- 设计动机：单目视频通常只拍正面，后脑数据缺失

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{L1} + 0.1\mathcal{L}_{VGG} + 100\mathcal{L}_{lap} + 100\mathcal{L}_{FLAME} + 0.1\mathcal{L}_{scale}\)。Laplacian 平滑正则化网格变形，FLAME 约束可学习的 blendshape 偏移，scale 惩罚各向异性过大的高斯。

实验关键数据¶

主实验¶

方法	PSNR↑	SSIM↑	LPIPS↓	高斯数
FlashAvatar	27.41	0.9397	0.0603	-
MonoGaussianAvatar	28.07	0.9405	0.0618	-
SplattingAvatar	27.89	0.9324	0.0643	558K
FATE	28.37	0.9439	0.0586	49K

消融实验¶

配置	PSNR	LPIPS	说明
无密化	-	0.0740	分布不均
无可学习 blendshape	PSNR-4.58	0.1112	表情拟合崩溃
两阶段烘焙	27.78	-	优于一阶段(27.42)

关键发现¶

49K高斯 vs 558K：FATE 用 1/10 的高斯数达到更好的指标，说明采样密化比阈值分裂更高效
烘焙损失极小：烘焙后 PSNR 仅下降 ~0.6 dB，但获得了纹理编辑能力
可学习 blendshape 至关重要：去掉后 PSNR 暴跌 4.58 dB

亮点与洞察¶

离散到连续的桥梁：神经烘焙是第一个将3DGS的离散优势与传统纹理编辑的连续需求结合的方案
采样 vs 阈值：用概率采样替代硬阈值是一个通用的改进思路，可以推广到其他3DGS场景

局限与展望¶

假设光照均匀一致，无法处理变化光照
后脑补全依赖 SphereHead 的训练数据偏置，可能导致身份漂移
UV 纹理分辨率固定，极端几何可能需要 MipMap

评分¶

新颖性: ⭐⭐⭐⭐ 采样密化和神经烘焙两个创新点实用有效
实验充分度: ⭐⭐⭐⭐ 20个受试者4个数据集，充分消融
写作质量: ⭐⭐⭐⭐ 清晰完整
价值: ⭐⭐⭐⭐ 为3DGS头部化身提供了编辑能力