跳转至

GASP: Gaussian Avatars with Synthetic Priors

会议: CVPR 2025
arXiv: 2412.07739
代码: https://microsoft.github.io/GASP/ (项目页)
领域: 3D视觉
关键词: 高斯头像, 合成数据先验, 单目重建, 360度渲染, 实时动画

一句话总结

提出 GASP,利用合成数据训练 Gaussian Avatar 的生成式先验模型(auto-decoder),通过三阶段拟合过程和学到的 per-Gaussian 语义特征关联来跨越合成-真实域差距,仅从单张图片或短视频即可创建支持 360° 渲染的高质量实时可动画头像(70fps)。

研究背景与动机

  1. 领域现状:基于 Gaussian Splatting 的可动画头像(Gaussian Avatars)已经在质量和速度上取得重大进展。现有方法要么使用昂贵的多相机设备实现自由视点渲染,要么可从单目训练但只能从固定视角渲染。

  2. 现有痛点:(a) 多相机方法需要复杂采集装置,普通用户无法使用;(b) 单目方法在非训练视角(尤其头部侧面和背面)出现严重伪影;(c) 现有少样本头像方法(如基于 NeRF 的 Preface、Cafca)渲染速度太慢(>20s/帧)。

  3. 核心矛盾:从单目输入重建 360° 头像是一个严重的欠约束问题——头部的极端侧面和背面完全不可见。需要先验模型来"填补"缺失区域,但高质量的多视角真人数据集极其稀少,且标注(相机标定、3DMM 参数)存在显著误差。

  4. 本文目标 如何从网络摄像头或手机拍摄的单张图片/短视频创建可实时渲染的 360° 高质量头像?

  5. 切入角度:合成数据具有像素级精确标注和任意多视角覆盖的天然优势,可以训练大规模先验模型。关键挑战是跨越合成到真实的域差距。

  6. 核心 idea:在大规模合成人脸数据上训练 Gaussian Avatar 的 auto-decoder 先验,利用 per-Gaussian 语义特征的关联性,通过三阶段拟合过程跨越域差距,实现从单张图片到 360° 实时头像。

方法详解

整体框架

方法分两大阶段。先验训练阶段:在 1000 个合成人物(每人 50 张多视角图像)上训练一个 auto-decoder 模型,联合优化 Canonical Template、per-identity latent code、per-Gaussian feature 和 MLP decoder。拟合阶段:给定单张真人图片或短视频,通过三步拟合将先验适配到真实数据——(1) 反演 latent code, (2) 微调 MLP, (3) 精调 Gaussian 参数。

关键设计

  1. Auto-decoder 先验模型(Prior Model Training):

    • 功能:学习一个可生成不同身份 Gaussian Avatar 的生成模型
    • 核心思路:每个 Gaussian 附加一个 8 维可学习特征向量 \(\mathbf{f}_i\),每个身份对应一个 512 维 latent code \(\mathbf{z}_j\)。共享的 MLP decoder \(\mathcal{D}\) 将特征和 identity code 映射为 Gaussian 属性的偏移量:\(\mathcal{A}_{i,j}=\mathcal{C}_{i,j}+\mathcal{D}(\mathbf{f}_i, \mathbf{z}_j)\),其中 \(\mathcal{C}\) 是 Canonical Template(均值头像)。使用 UV map 初始化,分辨率 \(512 \times 512\) 产生约 18.8 万 Gaussians。训练损失包含像素级 L1+SSIM、感知损失 LPIPS、alpha mask 损失和正则化损失。
    • 设计动机:直接让 MLP 输出全部 Gaussian 属性维度太高不可行。通过 per-Gaussian feature 作为"位置编码+语义编码",让 MLP 可以独立并行处理每个 Gaussian,大幅降低参数量。Template+offset 的设计让模型只学身份间的差异,更稳定。
  2. Per-Gaussian 语义特征关联(Learned Feature Correlations):

    • 功能:使拟合过程中前面可见区域的更新自动传播到不可见区域
    • 核心思路:训练过程中,MLP 被迫学会将语义相似的 Gaussian 映射到相似的特征空间。PCA 分解可视化显示,学到的特征具有语义含义(额头、嘴唇、头皮等区域自然聚类)。拟合时冻结特征 \(\mathbf{f}\),只优化 \(\mathbf{z}\)\(\mathcal{D}\),因此如果 MLP 学会让前额的金发 Gaussian 变金色,后脑勺具有相似特征的 Gaussian 也会自动变金色。
    • 设计动机:这是解决"单目输入→360° 输出"核心矛盾的关键机制——通过语义特征的隐式关联,实现从可见→不可见区域的信息传播,无需显式的对称性假设。
  3. 三阶段拟合过程(Three-stage Fitting):

    • 功能:将合成先验适配到真实用户数据
    • 核心思路:Stage 1 (Inversion):冻结一切,只优化 identity code \(\mathbf{z}\),在先验空间内找最优头像,500 步;Stage 2 (MLP Fine-tuning):冻结特征和模板,微调 MLP \(\mathcal{D}\),利用特征关联跨越域差距,500 步;Stage 3 (Gaussian Refinement):直接优化 Gaussian 参数以最佳拟合数据,100 步。每个阶段加入 \(L_{prior}\) 正则项(Gaussian 参数与 Stage 1 结果的 L2 距离),防止偏离先验太远。整个拟合过程在 4090 上约 10 分钟。
    • 设计动机:纯 Inversion 只能生成合成外观;直接优化 Gaussian 则不可见区域会出伪影。三阶段渐进式过渡,Stage 2 是关键——通过特征关联在微调 MLP 时同步更新可见和不可见区域,实现域差距的优雅跨越。

损失函数 / 训练策略

先验训练损失:\(\mathcal{L}=\lambda_{pix}L_{pix}+\lambda_\alpha L_\alpha+\lambda_{percep}L_{percep}+L_{reg}\)\(L_{pix}\) 包含 L1 和 SSIM,\(L_{percep}\) 基于 LPIPS,\(L_{reg}\) 正则化 Gaussian 的 scale 和 displacement。头皮区域的 displacement 正则化降低 100 倍以允许头发建模。先验在 4×A100 上训练 4 天,batch size 8,250 epochs。推理时不需要任何神经网络,纯 Gaussian splatting。

实验关键数据

主实验

设置 指标 GASP FlashAvatar GA DiffusionRig ROME
单目视频 PSNR↑ dB 21.34 17.25 17.39 19.67 -
单目视频 SSIM↑ 0.712 0.603 0.601 0.343 -
单目视频 LPIPS↓ 0.333 0.450 0.428 0.436 -
单目视频 FID↓ 117 351 366 155 -
单目视频 ID-SIM↑ 0.568 0.234 0.179 0.302 -
单张图片 PSNR↑ dB 20.73 13.26 14.80 16.87 15.78
单张图片 QUAL↑ /5 3.80 2.05 2.03 3.15 3.38

消融实验

配置 PSNR↑ SSIM↑ LPIPS↓ FID↓ ID-SIM↑
Full model 21.34 0.712 0.333 117 0.568
w/o prior 19.42 0.670 0.391 212 0.478
w/o prior regularization 20.31 0.701 0.344 122 0.620
w/o stage 1 19.56 0.678 0.364 127 0.588
w/o stage 2 20.33 0.704 0.347 118 0.490
1 subject prior 差于 w/o prior - - - -
1000 subjects prior Full model - - - -

关键发现

  • 先验模型贡献巨大:去掉先验后 PSNR 下降近 2dB,FID 从 117 跃升至 212
  • 先验正则化有取舍:去掉后 ID-SIM 反而最高(0.620),因为模型可以更自由拟合前面可见区域,但 FID 和 LPIPS 变差(不可见区域退化)
  • 仅用 1 个主体训练先验反而不如无先验,说明先验需要足够的多样性才能有正向作用
  • 推理速度 70fps(4090),15MB 存储,无需神经网络——纯 Gaussian splatting
  • 多相机设置下与 SOTA 持平(PSNR 23.44 vs GA 23.73),证明先验不会在数据充足时造成损害

亮点与洞察

  • 合成数据先验的成功应用:完美标注的合成数据+域自适应的拟合策略,是解决真实数据稀缺问题的优雅方案。这一范式可推广到全身头像、手部重建等领域
  • Per-Gaussian 语义特征的隐式传播:不需要显式定义对称性或对应关系,通过学到的特征关联自动从可见传播到不可见区域,是非常巧妙的设计。PCA 可视化展示了特征确实学到了语义
  • 推理时零网络开销:先验和 MLP 仅在拟合阶段使用,推理时完全不需要,实现了真正的轻量级实时渲染
  • 三阶段拟合的渐进式域适应:每个阶段解锁不同层级的自由度,平衡了先验约束和数据拟合

局限与展望

  • 不建模光照变化和动态表情(如皱纹),在多相机设置下质量略低于专门方法
  • 合成数据使用均匀白色光照训练,真实场景的复杂光照可能导致拟合困难
  • 拟合过程仍需 10 分钟(4090),对于需要即时创建头像的应用可能不够快
  • 3DMM 拟合质量影响最终效果,遮挡或极端表情时 3DMM 标注可能不准
  • 未探索交互式在线拟合(如边视频通话边渐进优化头像)

相关工作与启发

  • vs Cafca/Preface: 类似使用合成数据训练先验,但它们基于 NeRF,渲染>20s/帧且结果是静态的;GASP 基于 Gaussian Splatting,70fps 且可动画
  • vs GaussianAvatars: GA 将 Gaussian 绑定到 FLAME mesh,多相机训练质量高但单目退化严重;GASP 的先验有效防止了单目过拟合
  • vs DiffusionRig: 扩散模型作为先验无伪影但身份保持差;GASP 的 ID-SIM(0.568 vs 0.302)显著更好
  • vs Gaussian Morphable Model (Xu et al.): 类似思路但只用正面数据训练,无法渲染后脑勺;GASP 合成数据覆盖完整球面

评分

  • 新颖性: ⭐⭐⭐⭐ 合成先验+语义特征关联+三阶段拟合的组合设计新颖,但各组件独立看不算全新
  • 实验充分度: ⭐⭐⭐⭐ 三种设置全面评估,消融分析到位,含用户研究
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,动机和方法解释充分
  • 价值: ⭐⭐⭐⭐⭐ 首次实现从单张图片到 360° 实时 Gaussian 头像的实用系统,应用价值极高

相关论文