Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars¶
会议: ICCV 2025
arXiv: 2502.20220
代码: 无公开代码
领域: 3D视觉 / 数字人 / 头部重建
关键词: 3D高斯, 头部头像重建, 面部动画, 大重建模型, 前馈推理
一句话总结¶
提出Avat3r——首个可动画的大型3D重建模型(LRM),仅需4张输入图像即可在前馈方式下回归出高质量可驱动的3D高斯头部头像,通过整合DUSt3R位置图和Sapiens语义特征作为先验、并用简单的cross-attention建模表情动画,在Ava256和NeRSemble数据集上大幅超越现有方法。
背景与动机¶
- 现有高质量头部头像重建方法(如URAvatar)需要studio级别多视角拍摄、长时间录制和昂贵的测试时优化(如8块A100训练3小时),不适合消费级场景。
- 单目视频重建方法(如FlashAvatar)会过拟合训练视角,新视角外推能力差。
- 3D感知肖像动画方法(如GPAvatar、GAGAvatar)主要聚焦正面渲染,牺牲3D一致性换取图像质量,不能生成完整的3D模型。
- 照片级3D人脸模型(如GPHM、HeadGAP)受限于训练数据中的身份数量(仅几百人),难以真正学习人脸外观的完整分布。
- 核心观察:3D人脸数据在身份轴上有限,但在表情轴上数据充足。因此可以设计一个条件于身份(由输入图像提供)、仅在表情轴上泛化的系统,避免学习人脸外观的全分布。
核心问题¶
如何从仅4张输入图像(甚至是不一致的手机拍摄帧)出发,在前馈方式下同时解决稀疏3D重建、面部动画、鲁棒重建三大挑战,生成高保真可驱动的3D头部头像?
方法详解¶
整体框架¶
输入4张带相机参数的图像 + 目标表情编码 → DUSt3R生成位置图 + Sapiens提取语义特征图 → Vision Transformer主干(自注意力做跨视角匹配 + 交叉注意力注入表情信息)→ 上采样为每像素的高斯属性图 → 通过置信度阈值过滤 → 输出3D高斯集合,可从任意视角渲染。
关键设计¶
-
基础模型先验注入(DUSt3R + Sapiens):DUSt3R预测稠密位置图作为每个高斯的粗略3D位置初始化,并通过skip connection加到最终位置预测上;Sapiens 2b模型提取丰富的低分辨率语义特征图,简化后续Transformer的跨视角匹配任务。两者均离线预计算以节省训练开销。
-
可动画的大型重建模型架构:采用GRM风格的Vision Transformer,将输入图像、位置图、Plücker射线坐标拼接后patchify为token,Sapiens特征通过GridSample对齐分辨率后与token拼接。核心由8层self-attention(跨视角匹配)+ 8层cross-attention(表情注入)组成。表情编码通过MLP投影为长度S=4的token序列,cross-attention让每个图像token关注表情序列,实现表情驱动。
-
Skip Connection与置信度过滤:位置skip(预测位置 + DUSt3R位置)和颜色skip(预测颜色 + 原始RGB)引入归纳偏置;利用DUSt3R的置信度图(阈值τ=0.5)过滤低置信度像素,自然决定高斯数量——头发蓬松的人生成更多高斯。
-
不一致输入训练策略:训练时4张输入图像采样自不同时间步(不同表情),DUSt3R在输入不一致时仍能产生合理的位置图。这不仅允许在更大的单目视频数据集上训练和推理,还使模型对手机拍摄时的意外移动更鲁棒。
损失函数 / 训练策略¶
- 损失函数:L1损失(λ=0.8) + SSIM损失(λ=0.2) + LPIPS感知损失(λ=0.01, 3M步后引入)
- 训练数据:Ava256数据集,244人训练/12人测试,80个相机视角,每人约5000帧
- 训练配置:Adam优化器,lr=5e-5,batch size=1/GPU × 8块A100,共3.5M步约4天
- 监督策略:每个batch包含4张随机表情输入 + 8张目标表情监督视角
- 视角采样:k-farthest viewpoint sampling确保输入视角分布合理且多样
实验关键数据¶
Few-shot (4张输入) 头部头像创建¶
| 数据集 | 方法 | PSNR↑ | SSIM↑ | LPIPS↓ | AKD↓ | CSIM↑ |
|---|---|---|---|---|---|---|
| Ava256 | HeadNeRF | 9.1 | 0.64 | 0.52 | 6.9 | 0.11 |
| Ava256 | InvertAvatar | 14.2 | 0.36 | 0.55 | 15.8 | 0.29 |
| Ava256 | GPAvatar | 19.4 | 0.69 | 0.34 | 5.3 | 0.31 |
| Ava256 | Avat3r | 20.7 | 0.71 | 0.33 | 4.8 | 0.59 |
| NeRSemble | HeadNeRF | 9.8 | 0.69 | 0.47 | 4.9 | 0.22 |
| NeRSemble | GPAvatar† | 17.6 | 0.67 | 0.40 | 5.7 | 0.07 |
| NeRSemble | Avat3r | 20.5 | 0.75 | 0.33 | 3.7 | 0.50 |
运行时分析¶
| 方法 | 创建时间(s)↓ | 驱动速度(fps)↑ |
|---|---|---|
| HeadNeRF | 6511 | 1 |
| GPAvatar | 0.2 | 9.5 |
| Avat3r (4-shot) | 12.3 | 7.9 |
| Avat3r (1-shot) | 1.15 | 53 |
消融实验要点¶
- 去掉DUSt3R:几何保真度下降,多视角高斯预测对齐困难(PSNR 21.1→21.6 with DUSt3R)
- 去掉Sapiens:清晰度下降(尤其头发区域),PSNR 20.9→21.6
- 去掉随机时间步训练:图像略清晰但对输入不一致脆弱,AKD 8.86→8.08
- Skip Connection消融:去掉位置skip导致对齐问题和模糊;去掉颜色skip导致色偏;两者缺一不可(PSNR: 21.39/21.76/21.55→22.05全部使用时)
亮点¶
- 首个可动画的大型3D重建模型:将LRM范式首次扩展到可驱动的3D头部头像领域
- 极简的动画机制:仅用cross-attention到表情编码序列就实现了复杂的面部动画,无需模板mesh或显式变形场
- 不固定高斯数量:每像素预测高斯 + 置信度过滤,自适应调节不同人的高斯密度(蓬松头发更多高斯)
- 不一致输入训练:巧妙利用DUSt3R对不一致输入的鲁棒性,使模型能处理手机拍摄中的意外移动
- 强大的泛化能力:在未见过的NeRSemble数据集上表现优异,甚至能动画化AI生成图像和古代雕像
局限性 / 可改进方向¶
- 单图推理依赖3D GAN:单图场景需先用3D GAN做3D lifting,引入误差累积(3D GAN的不完美重建 + NeRF-based GAN的screen-space超分带来视角不一致)
- 需要相机位姿:推理时需提供相机参数,错误的位姿估计会导致重建偏差
- 光照baked-in:当前pipeline将输入图像的光照效果烘焙到重建中,无法重光照,限制了虚拟环境中的应用
- 训练数据身份有限:仅244人训练,存在身份过拟合风险(虽已证明增加984个中性表情身份可0.08%数据代价明显改善)
与相关工作的对比¶
- vs GPAvatar:GPAvatar在NeRF上预测canonical TriPlane再用FLAME驱动,表情被FLAME空间约束;Avat3r用cross-attention直接学习表情映射,表情更丰富真实,且在几乎所有指标上大幅领先(CSIM 0.31→0.59 on Ava256)
- vs FlashAvatar(单目方法):FlashAvatar需要完整视频序列且严重过拟合训练视角;Avat3r仅需4张图即远超其效果(PSNR 15.0→20.5 on NeRSemble)
- vs HeadGAP/GPHM(生成式3D人脸模型):这类方法学习人脸完整分布但受限于训练身份数量;Avat3r条件于输入图像绕过了身份泛化问题
启发与关联¶
- 与 ideas/3d_vision/ 中的feedforward 3D congealing idea相关:Avat3r同样使用DUSt3R做前馈3D理解,证明了DUSt3R在不一致输入下的鲁棒性,这一发现可推广到其他3D理解任务
- Avat3r的"只在某一轴泛化"的设计哲学值得借鉴:当数据在某些维度充足、某些维度不足时,条件化于数据少的维度、泛化于数据多的维度是一个通用策略
- cross-attention建模动态的极简方案(无需显式变形场)可能适用于其他动态场景重建任务(如手势、身体动作)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个将LRM扩展为可动画的头部重建模型,设计简洁高效,但整体是已有组件的巧妙组合
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集评测、丰富的消融实验(skip connection、DUSt3R、Sapiens、时间步随机化、训练人数、输入视角数)、单图/多图/应用场景全覆盖
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,动机阐述充分,每个设计选择都有实验支撑,补充材料详尽
- 价值: ⭐⭐⭐⭐ 实用价值高(手机拍4张→分钟级创建可驱动头像),对数字人领域有推动作用,但光照/位姿依赖限制了即时应用