Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars¶

会议: ICCV 2025
arXiv: 2502.20220
代码: 无公开代码
领域: 3D视觉 / 数字人 / 头部重建
关键词: 3D高斯, 头部头像重建, 面部动画, 大重建模型, 前馈推理

一句话总结¶

提出Avat3r——首个可动画的大型3D重建模型(LRM)，仅需4张输入图像即可在前馈方式下回归出高质量可驱动的3D高斯头部头像，通过整合DUSt3R位置图和Sapiens语义特征作为先验、并用简单的cross-attention建模表情动画，在Ava256和NeRSemble数据集上大幅超越现有方法。

背景与动机¶

现有高质量头部头像重建方法（如URAvatar）需要studio级别多视角拍摄、长时间录制和昂贵的测试时优化（如8块A100训练3小时），不适合消费级场景。
单目视频重建方法（如FlashAvatar）会过拟合训练视角，新视角外推能力差。
3D感知肖像动画方法（如GPAvatar、GAGAvatar）主要聚焦正面渲染，牺牲3D一致性换取图像质量，不能生成完整的3D模型。
照片级3D人脸模型（如GPHM、HeadGAP）受限于训练数据中的身份数量（仅几百人），难以真正学习人脸外观的完整分布。
核心观察：3D人脸数据在身份轴上有限，但在表情轴上数据充足。因此可以设计一个条件于身份（由输入图像提供）、仅在表情轴上泛化的系统，避免学习人脸外观的全分布。

核心问题¶

如何从仅4张输入图像（甚至是不一致的手机拍摄帧）出发，在前馈方式下同时解决稀疏3D重建、面部动画、鲁棒重建三大挑战，生成高保真可驱动的3D头部头像？

方法详解¶

整体框架¶

输入4张带相机参数的图像 + 目标表情编码 → DUSt3R生成位置图 + Sapiens提取语义特征图 → Vision Transformer主干（自注意力做跨视角匹配 + 交叉注意力注入表情信息）→ 上采样为每像素的高斯属性图 → 通过置信度阈值过滤 → 输出3D高斯集合，可从任意视角渲染。

关键设计¶

基础模型先验注入（DUSt3R + Sapiens）：DUSt3R预测稠密位置图作为每个高斯的粗略3D位置初始化，并通过skip connection加到最终位置预测上；Sapiens 2b模型提取丰富的低分辨率语义特征图，简化后续Transformer的跨视角匹配任务。两者均离线预计算以节省训练开销。
可动画的大型重建模型架构：采用GRM风格的Vision Transformer，将输入图像、位置图、Plücker射线坐标拼接后patchify为token，Sapiens特征通过GridSample对齐分辨率后与token拼接。核心由8层self-attention（跨视角匹配）+ 8层cross-attention（表情注入）组成。表情编码通过MLP投影为长度S=4的token序列，cross-attention让每个图像token关注表情序列，实现表情驱动。
Skip Connection与置信度过滤：位置skip（预测位置 + DUSt3R位置）和颜色skip（预测颜色 + 原始RGB）引入归纳偏置；利用DUSt3R的置信度图（阈值τ=0.5）过滤低置信度像素，自然决定高斯数量——头发蓬松的人生成更多高斯。
不一致输入训练策略：训练时4张输入图像采样自不同时间步（不同表情），DUSt3R在输入不一致时仍能产生合理的位置图。这不仅允许在更大的单目视频数据集上训练和推理，还使模型对手机拍摄时的意外移动更鲁棒。

损失函数 / 训练策略¶

损失函数：L1损失(λ=0.8) + SSIM损失(λ=0.2) + LPIPS感知损失(λ=0.01, 3M步后引入)
训练数据：Ava256数据集，244人训练/12人测试，80个相机视角，每人约5000帧
训练配置：Adam优化器，lr=5e-5，batch size=1/GPU × 8块A100，共3.5M步约4天
监督策略：每个batch包含4张随机表情输入 + 8张目标表情监督视角
视角采样：k-farthest viewpoint sampling确保输入视角分布合理且多样

实验关键数据¶

Few-shot (4张输入) 头部头像创建¶

数据集	方法	PSNR↑	SSIM↑	LPIPS↓	AKD↓	CSIM↑
Ava256	HeadNeRF	9.1	0.64	0.52	6.9	0.11
Ava256	InvertAvatar	14.2	0.36	0.55	15.8	0.29
Ava256	GPAvatar	19.4	0.69	0.34	5.3	0.31
Ava256	Avat3r	20.7	0.71	0.33	4.8	0.59
NeRSemble	HeadNeRF	9.8	0.69	0.47	4.9	0.22
NeRSemble	GPAvatar†	17.6	0.67	0.40	5.7	0.07
NeRSemble	Avat3r	20.5	0.75	0.33	3.7	0.50

运行时分析¶

方法	创建时间(s)↓	驱动速度(fps)↑
HeadNeRF	6511	1
GPAvatar	0.2	9.5
Avat3r (4-shot)	12.3	7.9
Avat3r (1-shot)	1.15	53

消融实验要点¶

去掉DUSt3R：几何保真度下降，多视角高斯预测对齐困难（PSNR 21.1→21.6 with DUSt3R）
去掉Sapiens：清晰度下降（尤其头发区域），PSNR 20.9→21.6
去掉随机时间步训练：图像略清晰但对输入不一致脆弱，AKD 8.86→8.08
Skip Connection消融：去掉位置skip导致对齐问题和模糊；去掉颜色skip导致色偏；两者缺一不可（PSNR: 21.39/21.76/21.55→22.05全部使用时）

亮点¶

首个可动画的大型3D重建模型：将LRM范式首次扩展到可驱动的3D头部头像领域
极简的动画机制：仅用cross-attention到表情编码序列就实现了复杂的面部动画，无需模板mesh或显式变形场
不固定高斯数量：每像素预测高斯 + 置信度过滤，自适应调节不同人的高斯密度（蓬松头发更多高斯）
不一致输入训练：巧妙利用DUSt3R对不一致输入的鲁棒性，使模型能处理手机拍摄中的意外移动
强大的泛化能力：在未见过的NeRSemble数据集上表现优异，甚至能动画化AI生成图像和古代雕像

局限性 / 可改进方向¶

单图推理依赖3D GAN：单图场景需先用3D GAN做3D lifting，引入误差累积（3D GAN的不完美重建 + NeRF-based GAN的screen-space超分带来视角不一致）
需要相机位姿：推理时需提供相机参数，错误的位姿估计会导致重建偏差
光照baked-in：当前pipeline将输入图像的光照效果烘焙到重建中，无法重光照，限制了虚拟环境中的应用
训练数据身份有限：仅244人训练，存在身份过拟合风险（虽已证明增加984个中性表情身份可0.08%数据代价明显改善）

与相关工作的对比¶

vs GPAvatar：GPAvatar在NeRF上预测canonical TriPlane再用FLAME驱动，表情被FLAME空间约束；Avat3r用cross-attention直接学习表情映射，表情更丰富真实，且在几乎所有指标上大幅领先（CSIM 0.31→0.59 on Ava256）
vs FlashAvatar（单目方法）：FlashAvatar需要完整视频序列且严重过拟合训练视角；Avat3r仅需4张图即远超其效果（PSNR 15.0→20.5 on NeRSemble）
vs HeadGAP/GPHM（生成式3D人脸模型）：这类方法学习人脸完整分布但受限于训练身份数量；Avat3r条件于输入图像绕过了身份泛化问题

启发与关联¶

与 ideas/3d_vision/ 中的feedforward 3D congealing idea相关：Avat3r同样使用DUSt3R做前馈3D理解，证明了DUSt3R在不一致输入下的鲁棒性，这一发现可推广到其他3D理解任务
Avat3r的"只在某一轴泛化"的设计哲学值得借鉴：当数据在某些维度充足、某些维度不足时，条件化于数据少的维度、泛化于数据多的维度是一个通用策略
cross-attention建模动态的极简方案（无需显式变形场）可能适用于其他动态场景重建任务（如手势、身体动作）

评分¶

新颖性: ⭐⭐⭐⭐ 首个将LRM扩展为可动画的头部重建模型，设计简洁高效，但整体是已有组件的巧妙组合
实验充分度: ⭐⭐⭐⭐⭐ 多数据集评测、丰富的消融实验（skip connection、DUSt3R、Sapiens、时间步随机化、训练人数、输入视角数）、单图/多图/应用场景全覆盖
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，动机阐述充分，每个设计选择都有实验支撑，补充材料详尽
价值: ⭐⭐⭐⭐ 实用价值高（手机拍4张→分钟级创建可驱动头像），对数字人领域有推动作用，但光照/位姿依赖限制了即时应用