FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation¶
会议: ICLR 2026
arXiv: 2601.13837
代码: 待确认
领域: 3D视觉 / 头部重建
关键词: 3D Gaussian Splatting, head avatar, few-shot, real-time animation, feed-forward
一句话总结¶
提出 FastGHA,一个前馈式少样本 3D 高斯头部化身生成框架,从 4 张任意表情/视角的输入图像在 ~1 秒内重建可动画的 3D 高斯头部,支持 62 FPS 实时动画,在 Ava-256 上 PSNR 达到 22.5 dB(超越 Avat3r 的 20.7,且快 7.75 倍)。
研究背景与动机¶
-
领域现状:3D 头部化身生成方法分为优化式和前馈式。优化式(如 per-identity 拟合)需要大量多视角数据和长时间优化,不适合实时部署。前馈式方法(Avat3r, GPAvatar)可以从少量图像生成,但要么不支持可控动画,要么动画速度慢(Avat3r 仅 8 FPS),要么重建质量有限。
-
现有痛点:(a) Avat3r 使用几何先验的跳跃连接(skip-connection),导致几何误差直接传播到最终输出;(b) 现有方法在表情迁移精度(AKD)和身份保持(CSIM)上难以兼顾;(c) 动画速度与质量的权衡——高质量方法通常很慢。
-
切入角度:两阶段设计——先从少样本图像前馈重建 canonical 高斯头部(带学习的逐高斯特征),再用轻量 MLP 做表情驱动的变形,实现快速动画。
-
核心idea一句话:基于 SD-Turbo VAE + DINOv3 特征的多视角 Transformer 重建 canonical 高斯头部,配合逐高斯学习特征和轻量变形 MLP 实现实时动画。
方法详解¶
整体框架¶
Stage 1: 输入 4 张图像 → SD-Turbo VAE 提取颜色特征 + DINOv3 提取语义特征 + Plücker 射线编码相机姿态 → 多视角 Transformer 融合跨视角信息 → 修改的 VAE decoder 输出逐像素高斯参数 → 融合为 canonical 高斯头部 \(\mathcal{G}^c_f\)(带 32 维逐高斯特征)。
Stage 2: canonical 高斯头部 + FLAME 表情编码 → 轻量 MLP 独立处理每个高斯 → 输出位置和颜色偏移 \(\delta_z\) → 变形后的高斯可微光栅化渲染。
关键设计¶
-
SD-Turbo VAE 作为骨干:冻结编码器获取预训练的高层语义特征,微调解码器生成高斯参数。比从头训练 PSNR 高 0.5 dB。
-
逐高斯学习特征 \(\mathbf{f} \in \mathbb{R}^{32}\):不仅输出标准高斯属性(位置/颜色/旋转/缩放/透明度),还为每个高斯学习 32 维语义特征,编码表情相关的高层信息,送入变形 MLP。去掉后 PSNR 降 0.22,CSIM 降 0.014。
-
VGGT 几何正则化:使用预训练 VGGT 模型生成的点云作为几何监督(深度损失 \(\mathcal{L}_{geo}\)),而非 Avat3r 那样通过跳跃连接直接输入——避免了误差传播。
-
轻量变形 MLP:独立处理每个高斯点(可高度并行化),输入 canonical 属性 + FLAME 表情码,输出位置和颜色偏移。
损失函数 / 训练策略¶
\(\mathcal{L} = \mathcal{L}_{RGB} + \mathcal{L}_{SSIM} + 0.5 \mathcal{L}_{perc} + \mathcal{L}_{sil} + 0.5 \mathcal{L}_{geo}\)
训练数据:Ava-256(256人/40相机)+ NeRSemble(425人/16相机)。每次采样同一人 4 张不同表情/视角图像作为输入,8 张同表情图像作为监督。4×H800,400k步,约4天。
实验关键数据¶
主实验¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | CSIM↑ | AKD↓ | FPS |
|---|---|---|---|---|---|---|
| InvertAvatar | 14.2 | 0.36 | 0.55 | 0.29 | 15.8 | - |
| GPAvatar | 19.1 | 0.70 | 0.32 | 0.26 | 6.9 | - |
| Avat3r | 20.7 | 0.71 | 0.33 | 0.59 | 4.8 | 8 |
| FastGHA | 22.5 | 0.77 | 0.23 | 0.73 | 4.8 | 62 |
FastGHA 全面超越 Avat3r:PSNR +1.8, LPIPS -0.10, CSIM +0.14, FPS 7.75×。
消融实验¶
| 配置 | PSNR | CSIM | AKD |
|---|---|---|---|
| w/o VAE 预训练权重 | 20.789 | 0.681 | 5.487 |
| w/o 几何损失 | 21.132 | 0.687 | 5.049 |
| w/o 逐高斯特征 | 21.053 | 0.690 | 5.216 |
| Full FastGHA | 21.274 | 0.704 | 4.996 |
关键发现¶
- 预训练 VAE 权重是最关键因素:去掉后 PSNR 降 0.49,CSIM 降 0.023
- 重建时间亚秒级:4 张输入仅需 0.98 秒
- 输入图像数量的权衡:2 张→128FPS 但质量下降;6 张→32FPS 但质量提升有限。4 张是最佳平衡点
- 在 NeRSemble 上同样强劲:PSNR 24.0, SSIM 0.81
亮点与洞察¶
- 几何先验的正确使用方式:作为正则化损失而非跳跃连接输入——避免了 Avat3r 的误差传播问题。这是一个通用的设计原则
- 逐高斯语义特征:32维学习特征使变形 MLP 可以利用超越低级几何属性的高层信息,小开销大收益
- 实时动画的关键:变形 MLP 独立处理每个高斯(无需跨高斯交互),完全可并行化
局限性 / 可改进方向¶
- 需要预先获取相机参数和 FLAME 表情编码——实际应用中这一步可能成为瓶颈
- 仅在实验室多视角数据集上训练和评估,对 in-the-wild 自拍等低质量输入的鲁棒性未验证
- 不支持头发和配饰的精细建模(受限于高斯表示)
- 变形 MLP 独立处理每个高斯,缺乏全局一致性约束
相关工作与启发¶
- vs Avat3r: Avat3r 也是前馈式,但用跳跃连接几何先验导致误差传播,且仅 8FPS;FastGHA 用深度监督替代跳跃连接,62FPS
- vs GPAvatar: GPAvatar 身份保持差(CSIM 0.26 vs 0.73),因为缺乏强大的语义特征提取
评分¶
- 新颖性: ⭐⭐⭐⭐ 两阶段设计和逐高斯特征的思路清晰有效,但各组件单独来看非开创性
- 实验充分度: ⭐⭐⭐⭐ 两个数据集、多基线对比、消融全面、速度分析
- 写作质量: ⭐⭐⭐⭐ Pipeline 描述清晰,但部分设计选择的动机可以更深入
- 价值: ⭐⭐⭐⭐ 首次实现少样本+实时动画的 3D 高斯头部化身,实用价值高