跳转至

FastGHA: Generalized Few-Shot 3D Gaussian Head Avatars with Real-Time Animation

会议: ICLR 2026
arXiv: 2601.13837
代码: 待确认
领域: 3D视觉 / 头部重建
关键词: 3D Gaussian Splatting, head avatar, few-shot, real-time animation, feed-forward

一句话总结

提出 FastGHA,一个前馈式少样本 3D 高斯头部化身生成框架,从 4 张任意表情/视角的输入图像在 ~1 秒内重建可动画的 3D 高斯头部,支持 62 FPS 实时动画,在 Ava-256 上 PSNR 达到 22.5 dB(超越 Avat3r 的 20.7,且快 7.75 倍)。

研究背景与动机

  1. 领域现状:3D 头部化身生成方法分为优化式和前馈式。优化式(如 per-identity 拟合)需要大量多视角数据和长时间优化,不适合实时部署。前馈式方法(Avat3r, GPAvatar)可以从少量图像生成,但要么不支持可控动画,要么动画速度慢(Avat3r 仅 8 FPS),要么重建质量有限。

  2. 现有痛点:(a) Avat3r 使用几何先验的跳跃连接(skip-connection),导致几何误差直接传播到最终输出;(b) 现有方法在表情迁移精度(AKD)和身份保持(CSIM)上难以兼顾;(c) 动画速度与质量的权衡——高质量方法通常很慢。

  3. 切入角度:两阶段设计——先从少样本图像前馈重建 canonical 高斯头部(带学习的逐高斯特征),再用轻量 MLP 做表情驱动的变形,实现快速动画。

  4. 核心idea一句话:基于 SD-Turbo VAE + DINOv3 特征的多视角 Transformer 重建 canonical 高斯头部,配合逐高斯学习特征和轻量变形 MLP 实现实时动画。

方法详解

整体框架

Stage 1: 输入 4 张图像 → SD-Turbo VAE 提取颜色特征 + DINOv3 提取语义特征 + Plücker 射线编码相机姿态 → 多视角 Transformer 融合跨视角信息 → 修改的 VAE decoder 输出逐像素高斯参数 → 融合为 canonical 高斯头部 \(\mathcal{G}^c_f\)(带 32 维逐高斯特征)。

Stage 2: canonical 高斯头部 + FLAME 表情编码 → 轻量 MLP 独立处理每个高斯 → 输出位置和颜色偏移 \(\delta_z\) → 变形后的高斯可微光栅化渲染。

关键设计

  1. SD-Turbo VAE 作为骨干:冻结编码器获取预训练的高层语义特征,微调解码器生成高斯参数。比从头训练 PSNR 高 0.5 dB。

  2. 逐高斯学习特征 \(\mathbf{f} \in \mathbb{R}^{32}\):不仅输出标准高斯属性(位置/颜色/旋转/缩放/透明度),还为每个高斯学习 32 维语义特征,编码表情相关的高层信息,送入变形 MLP。去掉后 PSNR 降 0.22,CSIM 降 0.014。

  3. VGGT 几何正则化:使用预训练 VGGT 模型生成的点云作为几何监督(深度损失 \(\mathcal{L}_{geo}\)),而非 Avat3r 那样通过跳跃连接直接输入——避免了误差传播。

  4. 轻量变形 MLP:独立处理每个高斯点(可高度并行化),输入 canonical 属性 + FLAME 表情码,输出位置和颜色偏移。

损失函数 / 训练策略

\(\mathcal{L} = \mathcal{L}_{RGB} + \mathcal{L}_{SSIM} + 0.5 \mathcal{L}_{perc} + \mathcal{L}_{sil} + 0.5 \mathcal{L}_{geo}\)

训练数据:Ava-256(256人/40相机)+ NeRSemble(425人/16相机)。每次采样同一人 4 张不同表情/视角图像作为输入,8 张同表情图像作为监督。4×H800,400k步,约4天。

实验关键数据

主实验

方法 PSNR↑ SSIM↑ LPIPS↓ CSIM↑ AKD↓ FPS
InvertAvatar 14.2 0.36 0.55 0.29 15.8 -
GPAvatar 19.1 0.70 0.32 0.26 6.9 -
Avat3r 20.7 0.71 0.33 0.59 4.8 8
FastGHA 22.5 0.77 0.23 0.73 4.8 62

FastGHA 全面超越 Avat3r:PSNR +1.8, LPIPS -0.10, CSIM +0.14, FPS 7.75×。

消融实验

配置 PSNR CSIM AKD
w/o VAE 预训练权重 20.789 0.681 5.487
w/o 几何损失 21.132 0.687 5.049
w/o 逐高斯特征 21.053 0.690 5.216
Full FastGHA 21.274 0.704 4.996

关键发现

  • 预训练 VAE 权重是最关键因素:去掉后 PSNR 降 0.49,CSIM 降 0.023
  • 重建时间亚秒级:4 张输入仅需 0.98 秒
  • 输入图像数量的权衡:2 张→128FPS 但质量下降;6 张→32FPS 但质量提升有限。4 张是最佳平衡点
  • 在 NeRSemble 上同样强劲:PSNR 24.0, SSIM 0.81

亮点与洞察

  • 几何先验的正确使用方式:作为正则化损失而非跳跃连接输入——避免了 Avat3r 的误差传播问题。这是一个通用的设计原则
  • 逐高斯语义特征:32维学习特征使变形 MLP 可以利用超越低级几何属性的高层信息,小开销大收益
  • 实时动画的关键:变形 MLP 独立处理每个高斯(无需跨高斯交互),完全可并行化

局限性 / 可改进方向

  • 需要预先获取相机参数和 FLAME 表情编码——实际应用中这一步可能成为瓶颈
  • 仅在实验室多视角数据集上训练和评估,对 in-the-wild 自拍等低质量输入的鲁棒性未验证
  • 不支持头发和配饰的精细建模(受限于高斯表示)
  • 变形 MLP 独立处理每个高斯,缺乏全局一致性约束

相关工作与启发

  • vs Avat3r: Avat3r 也是前馈式,但用跳跃连接几何先验导致误差传播,且仅 8FPS;FastGHA 用深度监督替代跳跃连接,62FPS
  • vs GPAvatar: GPAvatar 身份保持差(CSIM 0.26 vs 0.73),因为缺乏强大的语义特征提取

评分

  • 新颖性: ⭐⭐⭐⭐ 两阶段设计和逐高斯特征的思路清晰有效,但各组件单独来看非开创性
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集、多基线对比、消融全面、速度分析
  • 写作质量: ⭐⭐⭐⭐ Pipeline 描述清晰,但部分设计选择的动机可以更深入
  • 价值: ⭐⭐⭐⭐ 首次实现少样本+实时动画的 3D 高斯头部化身,实用价值高