FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation¶

会议: ICLR 2026
arXiv: 2601.13837
代码: 待确认
领域: 3D视觉 / 头部重建
关键词: 3D Gaussian Splatting, head avatar, few-shot, real-time animation, feed-forward

一句话总结¶

提出 FastGHA，一个前馈式少样本 3D 高斯头部化身生成框架，从 4 张任意表情/视角的输入图像在 ~1 秒内重建可动画的 3D 高斯头部，支持 62 FPS 实时动画，在 Ava-256 上 PSNR 达到 22.5 dB（超越 Avat3r 的 20.7，且快 7.75 倍）。

研究背景与动机¶

领域现状：3D 头部化身生成方法分为优化式和前馈式。优化式（如 per-identity 拟合）需要大量多视角数据和长时间优化，不适合实时部署。前馈式方法（Avat3r, GPAvatar）可以从少量图像生成，但要么不支持可控动画，要么动画速度慢（Avat3r 仅 8 FPS），要么重建质量有限。
现有痛点：(a) Avat3r 使用几何先验的跳跃连接（skip-connection），导致几何误差直接传播到最终输出；(b) 现有方法在表情迁移精度（AKD）和身份保持（CSIM）上难以兼顾；(c) 动画速度与质量的权衡——高质量方法通常很慢。
切入角度：两阶段设计——先从少样本图像前馈重建 canonical 高斯头部（带学习的逐高斯特征），再用轻量 MLP 做表情驱动的变形，实现快速动画。
核心idea一句话：基于 SD-Turbo VAE + DINOv3 特征的多视角 Transformer 重建 canonical 高斯头部，配合逐高斯学习特征和轻量变形 MLP 实现实时动画。

方法详解¶

整体框架¶

Stage 1: 输入 4 张图像 → SD-Turbo VAE 提取颜色特征 + DINOv3 提取语义特征 + Plücker 射线编码相机姿态 → 多视角 Transformer 融合跨视角信息 → 修改的 VAE decoder 输出逐像素高斯参数 → 融合为 canonical 高斯头部 \(\mathcal{G}^c_f\)（带 32 维逐高斯特征）。

Stage 2: canonical 高斯头部 + FLAME 表情编码 → 轻量 MLP 独立处理每个高斯 → 输出位置和颜色偏移 \(\delta_z\) → 变形后的高斯可微光栅化渲染。

关键设计¶

SD-Turbo VAE 作为骨干：冻结编码器获取预训练的高层语义特征，微调解码器生成高斯参数。比从头训练 PSNR 高 0.5 dB。
逐高斯学习特征 \(\mathbf{f} \in \mathbb{R}^{32}\)：不仅输出标准高斯属性（位置/颜色/旋转/缩放/透明度），还为每个高斯学习 32 维语义特征，编码表情相关的高层信息，送入变形 MLP。去掉后 PSNR 降 0.22，CSIM 降 0.014。
VGGT 几何正则化：使用预训练 VGGT 模型生成的点云作为几何监督（深度损失 \(\mathcal{L}_{geo}\)），而非 Avat3r 那样通过跳跃连接直接输入——避免了误差传播。
轻量变形 MLP：独立处理每个高斯点（可高度并行化），输入 canonical 属性 + FLAME 表情码，输出位置和颜色偏移。

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{RGB} + \mathcal{L}_{SSIM} + 0.5 \mathcal{L}_{perc} + \mathcal{L}_{sil} + 0.5 \mathcal{L}_{geo}\)

训练数据：Ava-256（256人/40相机）+ NeRSemble（425人/16相机）。每次采样同一人 4 张不同表情/视角图像作为输入，8 张同表情图像作为监督。4×H800，400k步，约4天。

实验关键数据¶

主实验¶

方法	PSNR↑	SSIM↑	LPIPS↓	CSIM↑	AKD↓	FPS
InvertAvatar	14.2	0.36	0.55	0.29	15.8	-
GPAvatar	19.1	0.70	0.32	0.26	6.9	-
Avat3r	20.7	0.71	0.33	0.59	4.8	8
FastGHA	22.5	0.77	0.23	0.73	4.8	62

FastGHA 全面超越 Avat3r：PSNR +1.8, LPIPS -0.10, CSIM +0.14, FPS 7.75×。

消融实验¶

配置	PSNR	CSIM	AKD
w/o VAE 预训练权重	20.789	0.681	5.487
w/o 几何损失	21.132	0.687	5.049
w/o 逐高斯特征	21.053	0.690	5.216
Full FastGHA	21.274	0.704	4.996

关键发现¶

预训练 VAE 权重是最关键因素：去掉后 PSNR 降 0.49，CSIM 降 0.023
重建时间亚秒级：4 张输入仅需 0.98 秒
输入图像数量的权衡：2 张→128FPS 但质量下降；6 张→32FPS 但质量提升有限。4 张是最佳平衡点
在 NeRSemble 上同样强劲：PSNR 24.0, SSIM 0.81

亮点与洞察¶

几何先验的正确使用方式：作为正则化损失而非跳跃连接输入——避免了 Avat3r 的误差传播问题。这是一个通用的设计原则
逐高斯语义特征：32维学习特征使变形 MLP 可以利用超越低级几何属性的高层信息，小开销大收益
实时动画的关键：变形 MLP 独立处理每个高斯（无需跨高斯交互），完全可并行化

局限性 / 可改进方向¶

需要预先获取相机参数和 FLAME 表情编码——实际应用中这一步可能成为瓶颈
仅在实验室多视角数据集上训练和评估，对 in-the-wild 自拍等低质量输入的鲁棒性未验证
不支持头发和配饰的精细建模（受限于高斯表示）
变形 MLP 独立处理每个高斯，缺乏全局一致性约束

评分¶

新颖性: ⭐⭐⭐⭐ 两阶段设计和逐高斯特征的思路清晰有效，但各组件单独来看非开创性
实验充分度: ⭐⭐⭐⭐ 两个数据集、多基线对比、消融全面、速度分析
写作质量: ⭐⭐⭐⭐ Pipeline 描述清晰，但部分设计选择的动机可以更深入
价值: ⭐⭐⭐⭐ 首次实现少样本+实时动画的 3D 高斯头部化身，实用价值高