跳转至

LCA: Large-scale Codec Avatars - The Unreasonable Effectiveness of Large-scale Avatar Pretraining

会议: CVPR 2026
arXiv: 2604.02320
代码: https://junxuan-li.github.io/lca
领域: 人体理解 / 3D视觉
关键词: 3D头像, 大规模预训练, 前馈生成, 高斯溅射, 表情控制

一句话总结

LCA 首次将大规模预训练/后训练范式应用于 3D 头像建模:在 100 万野外视频上预训练学习广泛的外观和几何先验,再在高质量多视图工作室数据上后训练增强精细表情和保真度,打破了泛化性与保真度的固有矛盾。

研究背景与动机

高质量 3D 头像建模面临核心权衡:工作室数据可以生成高保真头像,但泛化性差(只适用于拍摄过的人);野外数据可以泛化到更多人,但质量低(3D 歧义导致畸变)。

核心洞察:受 LLM 和视觉基础模型的启发——大规模预训练学习通用先验,少量高质量数据后训练对齐目标任务。首次证明这一范式在 3D 头像领域同样有效。

方法详解

整体框架

两分支架构:参考图像 token + 模板体网格 token → 大型 Transformer 融合 → 正则 MLP 输出高斯属性 + 修正 MLP 输出驱动信号下的偏移 → LBS 变换到目标位姿 → 3DGS 渲染。预训练在 1M 野外视频上,后训练在数千身份的多视图工作室数据上。

关键设计

  1. 可扩展的双分支架构:

    • 功能:统一支持工作室和野外数据的训练
    • 核心思路:图像 token 来自通用视觉编码器,几何 token 来自正则化体模板网格。Transformer 骨干用混合注意力方案(全局注意力+逐图像自注意力交替),支持可变数量的输入图像。正则分支输出正则高斯属性,修正分支根据驱动信号输出属性偏移
    • 设计动机:不需要高质量条件数据(如几何和纹理贴图),可以无缝在不同数据源间切换
  2. 预训练→后训练范式:

    • 功能:在泛化性和保真度之间取得最佳平衡
    • 核心思路:预训练阶段在 1M 野外视频上学习人类外观和几何的广泛先验。后训练阶段在多视图工作室数据上特化——增强面部表情的精细度和 3D 一致性。后训练不覆盖预训练的泛化能力,而是在其基础上增加精度
    • 设计动机:类比 LLM 的 pretrain + RLHF:预训练给能力,后训练给质量
  3. 自监督表情编码:

    • 功能:学习精细的面部表情控制信号
    • 核心思路:使用类似 FACS 的自监督方法学习面部表情潜在编码,作为修正分支的驱动信号。结合 SMPL-X 的身体/手部位姿,实现全身精细控制
    • 设计动机:表情是头像最重要的控制维度,需要超越参数化面部模型的精度

损失函数 / 训练策略

3DGS 渲染损失(L1 + D-SSIM)+ 感知损失 + 身份保持损失。预训练在 1M 视频上,后训练在多视图工作室数据上。

实验关键数据

主实验

能力 LCA 之前最佳 说明
身份泛化 世界级人口覆盖 数千身份 发型/服装/肤色/配饰
表情控制 精细面部+手指级 粗粒度 后训练显著增强
3D一致性 野外方法弱 预训练+后训练协同
前馈推理 高效 需要优化 几张图即可生成

消融实验

配置 泛化 表情精度 3D一致性 说明
仅预训练 弱(表情模糊) 中(3D畸变) 广泛先验但精度不足
仅后训练 高质量但泛化差
预训练+后训练 最佳平衡

关键发现

  • 出现了涌现能力:在没有直接监督的情况下,模型自发地泛化到可重光照、宽松衣物支持、以及对风格化图像的零样本鲁棒性
  • 预训练阶段学到的先验在后训练中不会被覆盖——类似 LLM 中的能力保持
  • 100 万视频的规模对泛化能力至关重要

亮点与洞察

  • LLM 范式的3D迁移:首次证明 pre/post-train 在 3D 头像领域同样打破了泛化-保真度权衡
  • 涌现能力:重光照和风格化鲁棒性的涌现说明大规模数据让模型学到了深层的物理/语义理解
  • 前馈高效:只需几张图片即可生成高质量头像,适合实际部署

局限与展望

  • 100 万视频的预训练计算成本极高(Meta 级别的资源)
  • 身体部分的精细度不如面部
  • 开源程度不确定,可复现性待验证

相关工作与启发

  • vs Codec Avatars 系列: 传统 Codec Avatars 需要每人优化,LCA 是前馈的
  • vs TRELLIS/Rodin: 这些方法规模较小,LCA 首次达到百万级预训练
  • vs Real3D-Portrait: 单张图方法保真度有限,LCA 多张图+大规模预训练更强

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 预训练/后训练范式在3D头像的首次成功应用
  • 实验充分度: ⭐⭐⭐⭐ 展示全面但定量评测可以更标准化
  • 写作质量: ⭐⭐⭐⭐⭐ 叙事流畅,洞察深刻
  • 价值: ⭐⭐⭐⭐⭐ 对3D数字人产业有变革性意义

相关论文