LCA: Large-scale Codec Avatars - The Unreasonable Effectiveness of Large-scale Avatar Pretraining¶

会议: CVPR 2026
arXiv: 2604.02320
代码: https://junxuan-li.github.io/lca
领域: 人体理解 / 3D视觉
关键词: 3D头像, 大规模预训练, 前馈生成, 高斯溅射, 表情控制

一句话总结¶

LCA 首次将大规模预训练/后训练范式应用于 3D 头像建模：在 100 万野外视频上预训练学习广泛的外观和几何先验，再在高质量多视图工作室数据上后训练增强精细表情和保真度，打破了泛化性与保真度的固有矛盾。

高质量 3D 头像建模面临核心权衡：工作室数据可以生成高保真头像，但泛化性差（只适用于拍摄过的人）；野外数据可以泛化到更多人，但质量低（3D 歧义导致畸变）。

核心洞察：受 LLM 和视觉基础模型的启发——大规模预训练学习通用先验，少量高质量数据后训练对齐目标任务。首次证明这一范式在 3D 头像领域同样有效。

两分支架构：参考图像 token + 模板体网格 token → 大型 Transformer 融合 → 正则 MLP 输出高斯属性 + 修正 MLP 输出驱动信号下的偏移 → LBS 变换到目标位姿 → 3DGS 渲染。预训练在 1M 野外视频上，后训练在数千身份的多视图工作室数据上。

可扩展的双分支架构:
- 功能：统一支持工作室和野外数据的训练
- 核心思路：图像 token 来自通用视觉编码器，几何 token 来自正则化体模板网格。Transformer 骨干用混合注意力方案（全局注意力+逐图像自注意力交替），支持可变数量的输入图像。正则分支输出正则高斯属性，修正分支根据驱动信号输出属性偏移
- 设计动机：不需要高质量条件数据（如几何和纹理贴图），可以无缝在不同数据源间切换
预训练→后训练范式:
- 功能：在泛化性和保真度之间取得最佳平衡
- 核心思路：预训练阶段在 1M 野外视频上学习人类外观和几何的广泛先验。后训练阶段在多视图工作室数据上特化——增强面部表情的精细度和 3D 一致性。后训练不覆盖预训练的泛化能力，而是在其基础上增加精度
- 设计动机：类比 LLM 的 pretrain + RLHF：预训练给能力，后训练给质量
自监督表情编码:
- 功能：学习精细的面部表情控制信号
- 核心思路：使用类似 FACS 的自监督方法学习面部表情潜在编码，作为修正分支的驱动信号。结合 SMPL-X 的身体/手部位姿，实现全身精细控制
- 设计动机：表情是头像最重要的控制维度，需要超越参数化面部模型的精度

3DGS 渲染损失（L1 + D-SSIM）+ 感知损失 + 身份保持损失。预训练在 1M 视频上，后训练在多视图工作室数据上。

配置	泛化	表情精度	3D一致性	说明
仅预训练	强	弱（表情模糊）	中（3D畸变）	广泛先验但精度不足
仅后训练	弱	强	强	高质量但泛化差
预训练+后训练	强	强	强	最佳平衡