跳转至

AvatarPointillist: AutoRegressive 4D Gaussian Avatarization

会议: CVPR 2026
arXiv: 2604.04787
代码: https://kumapowerliu.github.io/AvatarPointillist (有)
领域: 3D 视觉 / 数字人生成
关键词: 4D Avatar, Autoregressive, 3D Gaussian Splatting, Point Cloud Generation, One-shot

一句话总结

AvatarPointillist 提出了一种自回归(AR)生成框架来构建 4D 高斯头像:用 decoder-only Transformer 逐点生成 3DGS 点云(含绑定信息),再用 Gaussian Decoder 预测渲染属性,打破了固定模板拓扑的限制,实现了自适应点密度调整,在 NeRSemble 上全面超越 LAM、GAGAvatar 等基线。

研究背景与动机

领域现状:从单张肖像图生成可驱动的 3D 头像对 VR、远程呈现、电影等应用至关重要。现有方法分为 2D 动画(GAN/扩散)和 3D(NeRF/3DGS)两大范式。

2D 方法的根本缺陷:缺乏 3D 结构感知,极端姿态下出现几何扭曲,无法从任意视角渲染。

3DGS 方法的核心矛盾: - GAGAvatar:将 2D 特征提升到 3D,绕过完整点云表示,需辅助 2D 网络修复 - LAM:使用固定 FLAME 顶点作为模板点云,所有人都使用相同数量的高斯——这限制了模型自适应调整点密度来捕捉身份特有特征(如胡须、特殊发型) - 问题本质:固定拓扑丢失了 3DGS 最核心的优势——根据几何复杂度自适应控制点分布

核心问题:能否设计一个生成模型直接学习 3DGS 点云分布,不依赖固定模板?让模型自主决定在哪放点、放多少点。

核心 idea:将 3DGS 头像生成重新建模为自回归序列生成任务——逐点预测 3D 坐标和绑定索引,拥抱 3DGS 自适应动态特性。

方法详解

整体框架

两阶段: 1. AR 模型:输入肖像图特征 → decoder-only Transformer → 逐 token 生成量化点云 \((T_n^x, T_n^y, T_n^z, T_n^b)\) 2. Gaussian Decoder:反量化坐标 + AR 隐特征 → Transformer → 预测每点的完整高斯属性(颜色、不透明度、缩放、旋转、位移偏移)

关键设计

  1. 数据构建与量化

    • 用 GaussianAvatars 方法对 NeRSemble 中每个身份拟合 3DGS,每个高斯绑定到 FLAME mesh 的特定面
    • 用规范 FLAME mesh 计算全局规范高斯点云
    • 点云排序:按 y-z-x 顺序排列,保证相同点云产生相同序列
    • 坐标量化:1024 个离散级别(平衡精度和效率)
    • 绑定 token\(T_n^b = b_n + 1024\)(偏移到词表不同部分),\(b_n \in [0, 10143]\)
    • 序列格式:\((T_1^x, T_1^y, T_1^z, T_1^b, ..., T_N^x, T_N^y, T_N^z, T_N^b)\),含 Start/End/Padding 标记
  2. AR 模型架构

    • Decoder-only Transformer,每层包含交叉注意力 + 自注意力 + FFN
    • 身份注入:DINOv2 提取图像特征 + Pixel3DMM 获取 FLAME 参数 → 点云编码器提取 mesh 特征 → 拼接后通过交叉注意力注入
    • 标准 NTP 目标:\(p(T) = \prod_{n=1}^{4N} p(T_n | T_{<n})\)
    • 截断训练策略:点云序列很长,采用滑动窗口(窗口大小 12000)分段训练提高效率
  3. Gaussian Decoder 的双输入设计(核心创新)

    • 位置特征 \(P_n\):反量化坐标 → 位置编码 → MLP
    • AR 特征 \(F_n^p\):从 AR Transformer 提取最终隐状态,用 MLP 将 4 个 token 的隐特征聚合为单点特征
    • 两者拼接后输入 Gaussian Decoder
    • 设计动机:AR 隐状态包含了生成过程中积累的丰富语义信息,仅用坐标位置特征不足以产生高质量渲染
  4. 动画驱动

    • AR 模型预测每点的绑定信息(\(T_n^b\) → 对应 FLAME 面索引)
    • 通过重心坐标插值获取每点的 LBS 权重 \(\hat{\mathbf{w}}_i\) 和表情 blendshape \(\hat{\mathbf{S}}_i\)
    • 用标准 FLAME 变形过程驱动:给定姿态 \(\boldsymbol{\theta}\) 和表情 \(\boldsymbol{\psi}\) 参数即可动画

损失函数 / 训练策略

  • AR 模型:标准交叉熵损失,AdamW lr=1e-4,16×H20 GPU,50K steps,batch size 4
  • Gaussian Decoder(冻结 AR 模型后训练): $\(\mathcal{L}_{total} = \lambda_{L1}\mathcal{L}_{L1} + \lambda_{SSIM}\mathcal{L}_{SSIM} + \lambda_{LPIPS}\mathcal{L}_{LPIPS} + \lambda_{Reg}\mathcal{L}_{Reg}\)$
  • \(\lambda_{L1}=1, \lambda_{SSIM}=0.5, \lambda_{LPIPS}=0.1, \lambda_{Reg}=0.1\)
  • 8×H20 GPU,12500 steps

实验关键数据

主实验(NeRSemble 数据集)

方法 LPIPS↓ FID↓ AKD↓ APD↓ Cross-FID↓ Cross-CLIP↑
Portrait4Dv2 0.20 123.02 5.32 34.53 191.13 0.63
AvatarArtist 0.21 118.94 6.87 39.58 175.69 0.61
LAM 0.24 136.01 4.37 61.83 238.54 0.54
GAGAvatar 0.18 111.76 3.93 27.94 181.22 0.71
Ours 0.15 95.18 2.38 22.86 160.74 0.75

消融实验

配置 LPIPS↓ FID↓ AKD↓ APD↓ 说明
FLAME Position 0.23 120.34 4.82 41.22 固定 FLAME 模板(类 LAM)
AR Feature only 0.22 110.93 5.89 32.96 仅用 AR 隐特征
AR Position only 0.19 103.80 5.81 41.49 仅用位置编码
Full (Ours) 0.15 95.18 2.38 22.86 位置+AR特征双输入

关键发现

  • AR 点云生成 vs 固定 FLAME 模板:FID 从 120.34 降到 95.18,证实自适应点分布的优势
  • Gaussian Decoder 同时使用位置特征和 AR 特征至关重要——二者缺其一都有显著退化
  • FLAME Position 基线无法捕捉身份特有几何(如马尾辫、浓密胡须),定性结果展示了明显差距
  • 自回归生成的点云可视化显示了明显的自适应密度分布——几何复杂区域(头发、胡须)点更密集

亮点与洞察

  • 将 3DGS 点云生成重构为自回归 token 预测是一个范式创新,让生成模型真正拥有了"在哪放点、放多少点"的自由度
  • AR 隐特征传递给 Gaussian Decoder 的设计很精妙——生成过程中积累的语义上下文极大提升了渲染质量
  • 绑定预测使得生成的点云天然可动画化,无需额外后处理
  • 命名"Pointillist"(点彩派)贴切——每个高斯点如同画家的一笔,自适应组合成完整画面

局限与展望

  • 自回归生成序列很长(数万 token),推理速度相比一次性生成方法较慢
  • 训练数据局限于 NeRSemble(419 个身份),泛化到更大规模和更多样的人群有待验证
  • 依赖 GaussianAvatars 拟合来构建训练数据,数据质量受拟合质量影响
  • 1024 级量化引入的离散化误差可能在极精细区域(如眼睛周围)造成瑕疵

相关工作与启发

  • LAM 是最直接的对比——固定模板 vs 自回归生成的核心差异
  • MeshGPT 将 mesh 生成建模为 AR 任务是直接启发
  • 量化 + AR 的范式可推广到全身头像、场景级 3DGS 生成

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将 AR 序列生成应用于 3DGS 头像,范式创新明确
  • 实验充分度: ⭐⭐⭐⭐ 全面对比+详细消融,但仅在一个数据集上评估
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,方法描述详细
  • 价值: ⭐⭐⭐⭐⭐ 为 3DGS 头像生成提供了新方向,自适应点分布的优势具有普遍意义

相关论文