GASP: Gaussian Avatars with Synthetic Priors¶
会议: CVPR 2025
arXiv: 2412.07739
代码: https://microsoft.github.io/GASP/ (项目页)
领域: 3D视觉
关键词: 高斯头像, 合成数据先验, 单目重建, 360度渲染, 实时动画
一句话总结¶
提出 GASP,利用合成数据训练 Gaussian Avatar 的生成式先验模型(auto-decoder),通过三阶段拟合过程和学到的 per-Gaussian 语义特征关联来跨越合成-真实域差距,仅从单张图片或短视频即可创建支持 360° 渲染的高质量实时可动画头像(70fps)。
研究背景与动机¶
-
领域现状:基于 Gaussian Splatting 的可动画头像(Gaussian Avatars)已经在质量和速度上取得重大进展。现有方法要么使用昂贵的多相机设备实现自由视点渲染,要么可从单目训练但只能从固定视角渲染。
-
现有痛点:(a) 多相机方法需要复杂采集装置,普通用户无法使用;(b) 单目方法在非训练视角(尤其头部侧面和背面)出现严重伪影;(c) 现有少样本头像方法(如基于 NeRF 的 Preface、Cafca)渲染速度太慢(>20s/帧)。
-
核心矛盾:从单目输入重建 360° 头像是一个严重的欠约束问题——头部的极端侧面和背面完全不可见。需要先验模型来"填补"缺失区域,但高质量的多视角真人数据集极其稀少,且标注(相机标定、3DMM 参数)存在显著误差。
-
本文目标 如何从网络摄像头或手机拍摄的单张图片/短视频创建可实时渲染的 360° 高质量头像?
-
切入角度:合成数据具有像素级精确标注和任意多视角覆盖的天然优势,可以训练大规模先验模型。关键挑战是跨越合成到真实的域差距。
-
核心 idea:在大规模合成人脸数据上训练 Gaussian Avatar 的 auto-decoder 先验,利用 per-Gaussian 语义特征的关联性,通过三阶段拟合过程跨越域差距,实现从单张图片到 360° 实时头像。
方法详解¶
整体框架¶
方法分两大阶段。先验训练阶段:在 1000 个合成人物(每人 50 张多视角图像)上训练一个 auto-decoder 模型,联合优化 Canonical Template、per-identity latent code、per-Gaussian feature 和 MLP decoder。拟合阶段:给定单张真人图片或短视频,通过三步拟合将先验适配到真实数据——(1) 反演 latent code, (2) 微调 MLP, (3) 精调 Gaussian 参数。
关键设计¶
-
Auto-decoder 先验模型(Prior Model Training):
- 功能:学习一个可生成不同身份 Gaussian Avatar 的生成模型
- 核心思路:每个 Gaussian 附加一个 8 维可学习特征向量 \(\mathbf{f}_i\),每个身份对应一个 512 维 latent code \(\mathbf{z}_j\)。共享的 MLP decoder \(\mathcal{D}\) 将特征和 identity code 映射为 Gaussian 属性的偏移量:\(\mathcal{A}_{i,j}=\mathcal{C}_{i,j}+\mathcal{D}(\mathbf{f}_i, \mathbf{z}_j)\),其中 \(\mathcal{C}\) 是 Canonical Template(均值头像)。使用 UV map 初始化,分辨率 \(512 \times 512\) 产生约 18.8 万 Gaussians。训练损失包含像素级 L1+SSIM、感知损失 LPIPS、alpha mask 损失和正则化损失。
- 设计动机:直接让 MLP 输出全部 Gaussian 属性维度太高不可行。通过 per-Gaussian feature 作为"位置编码+语义编码",让 MLP 可以独立并行处理每个 Gaussian,大幅降低参数量。Template+offset 的设计让模型只学身份间的差异,更稳定。
-
Per-Gaussian 语义特征关联(Learned Feature Correlations):
- 功能:使拟合过程中前面可见区域的更新自动传播到不可见区域
- 核心思路:训练过程中,MLP 被迫学会将语义相似的 Gaussian 映射到相似的特征空间。PCA 分解可视化显示,学到的特征具有语义含义(额头、嘴唇、头皮等区域自然聚类)。拟合时冻结特征 \(\mathbf{f}\),只优化 \(\mathbf{z}\) 和 \(\mathcal{D}\),因此如果 MLP 学会让前额的金发 Gaussian 变金色,后脑勺具有相似特征的 Gaussian 也会自动变金色。
- 设计动机:这是解决"单目输入→360° 输出"核心矛盾的关键机制——通过语义特征的隐式关联,实现从可见→不可见区域的信息传播,无需显式的对称性假设。
-
三阶段拟合过程(Three-stage Fitting):
- 功能:将合成先验适配到真实用户数据
- 核心思路:Stage 1 (Inversion):冻结一切,只优化 identity code \(\mathbf{z}\),在先验空间内找最优头像,500 步;Stage 2 (MLP Fine-tuning):冻结特征和模板,微调 MLP \(\mathcal{D}\),利用特征关联跨越域差距,500 步;Stage 3 (Gaussian Refinement):直接优化 Gaussian 参数以最佳拟合数据,100 步。每个阶段加入 \(L_{prior}\) 正则项(Gaussian 参数与 Stage 1 结果的 L2 距离),防止偏离先验太远。整个拟合过程在 4090 上约 10 分钟。
- 设计动机:纯 Inversion 只能生成合成外观;直接优化 Gaussian 则不可见区域会出伪影。三阶段渐进式过渡,Stage 2 是关键——通过特征关联在微调 MLP 时同步更新可见和不可见区域,实现域差距的优雅跨越。
损失函数 / 训练策略¶
先验训练损失:\(\mathcal{L}=\lambda_{pix}L_{pix}+\lambda_\alpha L_\alpha+\lambda_{percep}L_{percep}+L_{reg}\)。\(L_{pix}\) 包含 L1 和 SSIM,\(L_{percep}\) 基于 LPIPS,\(L_{reg}\) 正则化 Gaussian 的 scale 和 displacement。头皮区域的 displacement 正则化降低 100 倍以允许头发建模。先验在 4×A100 上训练 4 天,batch size 8,250 epochs。推理时不需要任何神经网络,纯 Gaussian splatting。
实验关键数据¶
主实验¶
| 设置 | 指标 | GASP | FlashAvatar | GA | DiffusionRig | ROME |
|---|---|---|---|---|---|---|
| 单目视频 PSNR↑ | dB | 21.34 | 17.25 | 17.39 | 19.67 | - |
| 单目视频 SSIM↑ | 0.712 | 0.603 | 0.601 | 0.343 | - | |
| 单目视频 LPIPS↓ | 0.333 | 0.450 | 0.428 | 0.436 | - | |
| 单目视频 FID↓ | 117 | 351 | 366 | 155 | - | |
| 单目视频 ID-SIM↑ | 0.568 | 0.234 | 0.179 | 0.302 | - | |
| 单张图片 PSNR↑ | dB | 20.73 | 13.26 | 14.80 | 16.87 | 15.78 |
| 单张图片 QUAL↑ | /5 | 3.80 | 2.05 | 2.03 | 3.15 | 3.38 |
消融实验¶
| 配置 | PSNR↑ | SSIM↑ | LPIPS↓ | FID↓ | ID-SIM↑ |
|---|---|---|---|---|---|
| Full model | 21.34 | 0.712 | 0.333 | 117 | 0.568 |
| w/o prior | 19.42 | 0.670 | 0.391 | 212 | 0.478 |
| w/o prior regularization | 20.31 | 0.701 | 0.344 | 122 | 0.620 |
| w/o stage 1 | 19.56 | 0.678 | 0.364 | 127 | 0.588 |
| w/o stage 2 | 20.33 | 0.704 | 0.347 | 118 | 0.490 |
| 1 subject prior | 差于 w/o prior | - | - | - | - |
| 1000 subjects prior | Full model | - | - | - | - |
关键发现¶
- 先验模型贡献巨大:去掉先验后 PSNR 下降近 2dB,FID 从 117 跃升至 212
- 先验正则化有取舍:去掉后 ID-SIM 反而最高(0.620),因为模型可以更自由拟合前面可见区域,但 FID 和 LPIPS 变差(不可见区域退化)
- 仅用 1 个主体训练先验反而不如无先验,说明先验需要足够的多样性才能有正向作用
- 推理速度 70fps(4090),15MB 存储,无需神经网络——纯 Gaussian splatting
- 多相机设置下与 SOTA 持平(PSNR 23.44 vs GA 23.73),证明先验不会在数据充足时造成损害
亮点与洞察¶
- 合成数据先验的成功应用:完美标注的合成数据+域自适应的拟合策略,是解决真实数据稀缺问题的优雅方案。这一范式可推广到全身头像、手部重建等领域
- Per-Gaussian 语义特征的隐式传播:不需要显式定义对称性或对应关系,通过学到的特征关联自动从可见传播到不可见区域,是非常巧妙的设计。PCA 可视化展示了特征确实学到了语义
- 推理时零网络开销:先验和 MLP 仅在拟合阶段使用,推理时完全不需要,实现了真正的轻量级实时渲染
- 三阶段拟合的渐进式域适应:每个阶段解锁不同层级的自由度,平衡了先验约束和数据拟合
局限与展望¶
- 不建模光照变化和动态表情(如皱纹),在多相机设置下质量略低于专门方法
- 合成数据使用均匀白色光照训练,真实场景的复杂光照可能导致拟合困难
- 拟合过程仍需 10 分钟(4090),对于需要即时创建头像的应用可能不够快
- 3DMM 拟合质量影响最终效果,遮挡或极端表情时 3DMM 标注可能不准
- 未探索交互式在线拟合(如边视频通话边渐进优化头像)
相关工作与启发¶
- vs Cafca/Preface: 类似使用合成数据训练先验,但它们基于 NeRF,渲染>20s/帧且结果是静态的;GASP 基于 Gaussian Splatting,70fps 且可动画
- vs GaussianAvatars: GA 将 Gaussian 绑定到 FLAME mesh,多相机训练质量高但单目退化严重;GASP 的先验有效防止了单目过拟合
- vs DiffusionRig: 扩散模型作为先验无伪影但身份保持差;GASP 的 ID-SIM(0.568 vs 0.302)显著更好
- vs Gaussian Morphable Model (Xu et al.): 类似思路但只用正面数据训练,无法渲染后脑勺;GASP 合成数据覆盖完整球面
评分¶
- 新颖性: ⭐⭐⭐⭐ 合成先验+语义特征关联+三阶段拟合的组合设计新颖,但各组件独立看不算全新
- 实验充分度: ⭐⭐⭐⭐ 三种设置全面评估,消融分析到位,含用户研究
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机和方法解释充分
- 价值: ⭐⭐⭐⭐⭐ 首次实现从单张图片到 360° 实时 Gaussian 头像的实用系统,应用价值极高
相关论文¶
- [CVPR 2025] Synthetic Prior for Few-Shot Drivable Head Avatar Inversion
- [ICCV 2025] StrandHead: Text to Hair-Disentangled 3D Head Avatars Using Human-Centric Priors
- [CVPR 2025] 3D Gaussian Head Avatars with Expressive Dynamic Appearances by Compact Tensorial Representations
- [CVPR 2025] LUCAS: Layered Universal Codec Avatars
- [CVPR 2025] PERSE: Personalized 3D Generative Avatars from A Single Portrait