AvatarPointillist: AutoRegressive 4D Gaussian Avatarization¶
会议: CVPR 2026
arXiv: 2604.04787
代码: https://kumapowerliu.github.io/AvatarPointillist (有)
领域: 3D 视觉 / 数字人生成
关键词: 4D Avatar, Autoregressive, 3D Gaussian Splatting, Point Cloud Generation, One-shot
一句话总结¶
AvatarPointillist 提出了一种自回归(AR)生成框架来构建 4D 高斯头像:用 decoder-only Transformer 逐点生成 3DGS 点云(含绑定信息),再用 Gaussian Decoder 预测渲染属性,打破了固定模板拓扑的限制,实现了自适应点密度调整,在 NeRSemble 上全面超越 LAM、GAGAvatar 等基线。
研究背景与动机¶
领域现状:从单张肖像图生成可驱动的 3D 头像对 VR、远程呈现、电影等应用至关重要。现有方法分为 2D 动画(GAN/扩散)和 3D(NeRF/3DGS)两大范式。
2D 方法的根本缺陷:缺乏 3D 结构感知,极端姿态下出现几何扭曲,无法从任意视角渲染。
3DGS 方法的核心矛盾: - GAGAvatar:将 2D 特征提升到 3D,绕过完整点云表示,需辅助 2D 网络修复 - LAM:使用固定 FLAME 顶点作为模板点云,所有人都使用相同数量的高斯——这限制了模型自适应调整点密度来捕捉身份特有特征(如胡须、特殊发型) - 问题本质:固定拓扑丢失了 3DGS 最核心的优势——根据几何复杂度自适应控制点分布
核心问题:能否设计一个生成模型直接学习 3DGS 点云分布,不依赖固定模板?让模型自主决定在哪放点、放多少点。
核心 idea:将 3DGS 头像生成重新建模为自回归序列生成任务——逐点预测 3D 坐标和绑定索引,拥抱 3DGS 自适应动态特性。
方法详解¶
整体框架¶
两阶段: 1. AR 模型:输入肖像图特征 → decoder-only Transformer → 逐 token 生成量化点云 \((T_n^x, T_n^y, T_n^z, T_n^b)\) 2. Gaussian Decoder:反量化坐标 + AR 隐特征 → Transformer → 预测每点的完整高斯属性(颜色、不透明度、缩放、旋转、位移偏移)
关键设计¶
-
数据构建与量化:
- 用 GaussianAvatars 方法对 NeRSemble 中每个身份拟合 3DGS,每个高斯绑定到 FLAME mesh 的特定面
- 用规范 FLAME mesh 计算全局规范高斯点云
- 点云排序:按 y-z-x 顺序排列,保证相同点云产生相同序列
- 坐标量化:1024 个离散级别(平衡精度和效率)
- 绑定 token:\(T_n^b = b_n + 1024\)(偏移到词表不同部分),\(b_n \in [0, 10143]\)
- 序列格式:\((T_1^x, T_1^y, T_1^z, T_1^b, ..., T_N^x, T_N^y, T_N^z, T_N^b)\),含 Start/End/Padding 标记
-
AR 模型架构:
- Decoder-only Transformer,每层包含交叉注意力 + 自注意力 + FFN
- 身份注入:DINOv2 提取图像特征 + Pixel3DMM 获取 FLAME 参数 → 点云编码器提取 mesh 特征 → 拼接后通过交叉注意力注入
- 标准 NTP 目标:\(p(T) = \prod_{n=1}^{4N} p(T_n | T_{<n})\)
- 截断训练策略:点云序列很长,采用滑动窗口(窗口大小 12000)分段训练提高效率
-
Gaussian Decoder 的双输入设计(核心创新):
- 位置特征 \(P_n\):反量化坐标 → 位置编码 → MLP
- AR 特征 \(F_n^p\):从 AR Transformer 提取最终隐状态,用 MLP 将 4 个 token 的隐特征聚合为单点特征
- 两者拼接后输入 Gaussian Decoder
- 设计动机:AR 隐状态包含了生成过程中积累的丰富语义信息,仅用坐标位置特征不足以产生高质量渲染
-
动画驱动:
- AR 模型预测每点的绑定信息(\(T_n^b\) → 对应 FLAME 面索引)
- 通过重心坐标插值获取每点的 LBS 权重 \(\hat{\mathbf{w}}_i\) 和表情 blendshape \(\hat{\mathbf{S}}_i\)
- 用标准 FLAME 变形过程驱动:给定姿态 \(\boldsymbol{\theta}\) 和表情 \(\boldsymbol{\psi}\) 参数即可动画
损失函数 / 训练策略¶
- AR 模型:标准交叉熵损失,AdamW lr=1e-4,16×H20 GPU,50K steps,batch size 4
- Gaussian Decoder(冻结 AR 模型后训练): $\(\mathcal{L}_{total} = \lambda_{L1}\mathcal{L}_{L1} + \lambda_{SSIM}\mathcal{L}_{SSIM} + \lambda_{LPIPS}\mathcal{L}_{LPIPS} + \lambda_{Reg}\mathcal{L}_{Reg}\)$
- \(\lambda_{L1}=1, \lambda_{SSIM}=0.5, \lambda_{LPIPS}=0.1, \lambda_{Reg}=0.1\)
- 8×H20 GPU,12500 steps
实验关键数据¶
主实验(NeRSemble 数据集)¶
| 方法 | LPIPS↓ | FID↓ | AKD↓ | APD↓ | Cross-FID↓ | Cross-CLIP↑ |
|---|---|---|---|---|---|---|
| Portrait4Dv2 | 0.20 | 123.02 | 5.32 | 34.53 | 191.13 | 0.63 |
| AvatarArtist | 0.21 | 118.94 | 6.87 | 39.58 | 175.69 | 0.61 |
| LAM | 0.24 | 136.01 | 4.37 | 61.83 | 238.54 | 0.54 |
| GAGAvatar | 0.18 | 111.76 | 3.93 | 27.94 | 181.22 | 0.71 |
| Ours | 0.15 | 95.18 | 2.38 | 22.86 | 160.74 | 0.75 |
消融实验¶
| 配置 | LPIPS↓ | FID↓ | AKD↓ | APD↓ | 说明 |
|---|---|---|---|---|---|
| FLAME Position | 0.23 | 120.34 | 4.82 | 41.22 | 固定 FLAME 模板(类 LAM) |
| AR Feature only | 0.22 | 110.93 | 5.89 | 32.96 | 仅用 AR 隐特征 |
| AR Position only | 0.19 | 103.80 | 5.81 | 41.49 | 仅用位置编码 |
| Full (Ours) | 0.15 | 95.18 | 2.38 | 22.86 | 位置+AR特征双输入 |
关键发现¶
- AR 点云生成 vs 固定 FLAME 模板:FID 从 120.34 降到 95.18,证实自适应点分布的优势
- Gaussian Decoder 同时使用位置特征和 AR 特征至关重要——二者缺其一都有显著退化
- FLAME Position 基线无法捕捉身份特有几何(如马尾辫、浓密胡须),定性结果展示了明显差距
- 自回归生成的点云可视化显示了明显的自适应密度分布——几何复杂区域(头发、胡须)点更密集
亮点与洞察¶
- 将 3DGS 点云生成重构为自回归 token 预测是一个范式创新,让生成模型真正拥有了"在哪放点、放多少点"的自由度
- AR 隐特征传递给 Gaussian Decoder 的设计很精妙——生成过程中积累的语义上下文极大提升了渲染质量
- 绑定预测使得生成的点云天然可动画化,无需额外后处理
- 命名"Pointillist"(点彩派)贴切——每个高斯点如同画家的一笔,自适应组合成完整画面
局限与展望¶
- 自回归生成序列很长(数万 token),推理速度相比一次性生成方法较慢
- 训练数据局限于 NeRSemble(419 个身份),泛化到更大规模和更多样的人群有待验证
- 依赖 GaussianAvatars 拟合来构建训练数据,数据质量受拟合质量影响
- 1024 级量化引入的离散化误差可能在极精细区域(如眼睛周围)造成瑕疵
相关工作与启发¶
- LAM 是最直接的对比——固定模板 vs 自回归生成的核心差异
- MeshGPT 将 mesh 生成建模为 AR 任务是直接启发
- 量化 + AR 的范式可推广到全身头像、场景级 3DGS 生成
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将 AR 序列生成应用于 3DGS 头像,范式创新明确
- 实验充分度: ⭐⭐⭐⭐ 全面对比+详细消融,但仅在一个数据集上评估
- 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,方法描述详细
- 价值: ⭐⭐⭐⭐⭐ 为 3DGS 头像生成提供了新方向,自适应点分布的优势具有普遍意义
相关论文¶
- [CVPR 2026] 4C4D: 4 Camera 4D Gaussian Splatting
- [CVPR 2026] RetimeGS: Continuous-Time Reconstruction of 4D Gaussian Splatting
- [CVPR 2026] LongStream: Long-Sequence Streaming Autoregressive Visual Geometry
- [CVPR 2026] GP-4DGS: Probabilistic 4D Gaussian Splatting from Monocular Video via Variational Gaussian Processes
- [CVPR 2026] RayNova: Scale-Temporal Autoregressive World Modeling in Ray Space