跳转至

FaceCraft4D: Animated 3D Facial Avatar Generation from a Single Image

会议: ICCV 2025
arXiv: 2504.15179
代码: 无
领域: 扩散模型 / 3D视觉 / 人脸生成
关键词: 4D头部生成, 单图驱动, 3D高斯, FLAME, 多视角一致性

一句话总结

本文提出 FaceCraft4D 框架,通过组合 3D形状先验(PanoHead GAN反演)、2D图像先验(扩散模型增强纹理)和视频先验(LivePortrait 生成表情动画),从单张图像生成可动画的360度4D面部头像,并提出 COIN 训练策略解决多视角数据不一致问题,实现高质量实时渲染(156 FPS)。

研究背景与动机

领域现状:4D头部生成(可驱动的3D头部模型)在游戏、影视、教育中有广泛应用。现有高质量方法(如 HQ3DAvatar、GaussianAvatar)通常要求多视角视频输入和精确的相机姿态估计。

现有痛点: - 需要多视角视频采集,实际部署不现实 - 单图方法要么无法生成360度视角(如 Portrait-4D),要么无法建模表情动画(如 PanoHead) - 基于2D表示的方法(如 AniPortrait)天然缺乏多视角一致性 - 混合2D+3D表示的方法无法处理极端相机角度

核心矛盾:单张图像信息极度受限——缺乏深度、多视角和动态表情信息,但收集多视角全头动画数据集又非常困难,无法端到端训练。

本文目标 从单张图像同时实现:(a) 360度全视角覆盖;(b) 可控表情动画;(c) 多视角一致的高质量纹理;(d) 纯3D表示实现实时渲染。

切入角度:分而治之——分别利用3D GAN(形状先验)、图像扩散模型(纹理先验)、视频模型(表情先验)三种互补先验合成个性化多视角数据,再训练显式3D表示。

核心 idea:组合3D形状/2D图像/视频三种先验合成多视角表情数据,通过 COIN 训练策略从不一致数据中鲁棒重建4D高斯头像。

方法详解

整体框架

FaceCraft4D 分为两大阶段:个性化多视角生成4D表示优化。第一阶段依次利用三种先验生成个性化高质量多视角表情图像,第二阶段将合成数据用于训练可动画的3D高斯表示。

关键设计

  1. 形状先验(Shape Prior)——PanoHead GAN 反演

    • 功能:从单张输入图像获取粗略的3D形状和近似纹理。
    • 核心思路:利用预训练的 PanoHead(支持360度的3D-GAN)进行 GAN 反演。先通过最小化 \(\mathcal{L}_2\) + LPIPS 损失优化潜在向量 \(z\),再固定 \(z\) 微调GAN参数。优化后的生成器渲染出多视角粗略图像 \(\{I_i\}\) 和深度图 \(\{D_i\}\)
    • 设计动机:PanoHead 在大规模头部数据上训练,编码了完整头部形状的先验知识,为后续处理提供了包括后脑勺在内的完整3D形状初始化。
  2. 图像先验(Image Prior)——扩散模型增强纹理

    • 功能:利用2D扩散模型(Cosmicman)增强 GAN 反演产出的粗糙多视角纹理,同时保持视角间一致性。
    • 核心思路:提出两个关键约束:
      • 跨视角互注意力(Cross-view Mutual Attention):受 MasaCtrl 启发,在扩散模型去噪过程中,将新视角的自注意力 K/V 替换为参考图像的 K/V,将多视角图像作为 batch 处理,以参考图像为统一信息源。
      • 基于变形的控制信号(Warping-based Control):利用深度图将锚定视角(参考图+背面视角)的纹理投射到邻近视角,通过可见性 mask 过滤不可见区域,再与扩散模型的中间 latent 混合。
    • 设计动机:直接用 image-to-image 翻译会破坏跨视图一致性并修改语义内容;triplane 方法对焦距敏感,质量随焦距变化大幅退化。通过几何约束+注意力共享确保增强后的纹理跨视角一致。
  3. 视频先验(Video Prior)——LivePortrait 生成表情动画

    • 功能:利用 LivePortrait 为多视角静态图像生成同步的表情动画数据。
    • 核心思路:将增强后的多视角图像 \(\{I_i^*\}\) 和参考图像作为源图像输入 LivePortrait,使用相同的驱动视频(来自 NerSemble 数据集)确保表情同步。由于输入视角间身份一致,输出视频也保持身份一致。
    • 设计动机:静态生成阶段无法提供表情依赖的纹理信息(如嘴巴内部细节),需要视频先验补充动态信息。
  4. COIN 训练策略(COnsistent-INconsistent Training)

    • 功能:从有小幅不一致的多视角数据中鲁棒重建高质量4D表示。
    • 核心思路:联合训练两个表示——一致性 GaussianAvatar(基于 FLAME 的3D高斯,用 LPIPS 损失监督结构)和 不一致性 MLP(学习每个视角的颜色偏移 \(c_{offset} = \text{MLP}(e_{view}, c, e_g; \theta)\),用 L1+SSIM 损失捕获高频细节)。推理时固定使用参考视角的 view embedding。
    • 设计动机:合成的多视角数据不可避免存在颜色和特征微小错位。直接在不一致数据上训练会导致模糊纹理。COIN 将不一致性隔离到单独的 MLP 中,防止其污染基础表示,类似鲁棒回归。

损失函数 / 训练策略

  • 像素级损失:\(\mathcal{L}_{pixel} = \lambda_1 \mathcal{L}_1(I_i^{IC}, I_i^*) + \lambda_{SSIM} \text{SSIM}(I_i^{IC}, I_i^*)\)
  • 结构监督损失:\(\mathcal{L}_{struc} = \lambda_{LPIPS} \text{LPIPS}(I_i^C, I_i^*)\)
  • 正则化损失:\(\mathcal{L}_{reg} = \lambda_{offset} \mathcal{L}_1(c_{offset}, 0)\)
  • 超参数:\(\lambda_1 = 0.8\)\(\lambda_{SSIM} = 0.2\)\(\lambda_{LPIPS} = 0.05\)\(\lambda_{offset} = 1\)
  • 先静态优化30K迭代,再 COIN 微调90K迭代;总生成时间约2.5小时,推理156 FPS@512×512

实验关键数据

主实验:静态3D头部生成(定量对比)

方法 CLIP-I ↑ ID ↑ FID ↓
GaussianCube 0.6830 0.4300 258.81
PanoHead 0.8233 0.4246 195.28
SV3D 0.7656 0.4331 234.86
Portrait3D 0.7066 0.3719 302.74
FaceCraft4D 0.8053 0.5082 174.36

3D头部动画对比:

方法 CLIP-I ↑ ID ↑ FID ↓
AniPortrait 0.4653 0.4171 364.99
Portrait-4D 0.5236 0.4592 248.36
FaceCraft4D 0.5737 0.4602 201.76

消融实验

多视角图像生成模块消融:

配置 CLIP-I ↑ ID ↑ FID ↓
w/o Warp w/o MA 0.7328 0.4787 182.27
w/o Warp 0.7886 0.4915 171.08
w/o MA (互注意力) 0.8151 0.4951 172.43
Full 0.8162 0.4984 166.96

动画模块消融:

配置 CLIP-I ↑ ID ↑ FID ↓
w/o COIN 0.7688 0.4952 144.95
Full 0.7729 0.5010 142.80

关键发现

  • ID 保持方面优势显著:FaceCraft4D 的 ID 分数(0.5082)远超所有基线,说明身份一致性保持很好。
  • Warping 模块保留细节:如纹身等细细节在新视角中得以保留;互注意力解决性别一致性等语义问题。
  • COIN 训练关键:没有 COIN 时纹理模糊,牙齿和发丝等高频细节丢失。
  • 多输入鲁棒性强:卡通、线稿、极端姿态的图像也能生成一致的4D头像。
  • 生成耗时约2.5小时,与 GaussianAvatar(2小时)等优化方法相当,推理速度极快(156 FPS)。

亮点与洞察

  • 三先验组合策略:形状+纹理+动态三个先验各司其职,优雅地解决了单图4D重建这个高度病态问题。这种模块化先验组合的思路对其他 ill-posed 任务有很强的借鉴意义。
  • COIN 训练范式新颖:将不一致性显式分离到独立模块,比传统鲁棒损失函数(如 L1)更优因为能保持不一致性的空间位置信息。这一思路可推广到任何需要从不完美合成数据中学习的场景。
  • 工程完整度高:从生成到渲染的完整 pipeline,支持 FLAME 参数驱动,156 FPS 实时渲染,实用性强。

局限与展望

  • 生成单个头像需约2.5小时(主要在 COIN 训练阶段),离实时应用有差距。
  • 依赖 PanoHead 的 GAN 反演质量作为初始化,如果反演失败(如极端遮挡),整个 pipeline 会受影响。
  • 扩散模型增强纹理仍可能引入微小的跨视角不一致——虽然 COIN 能缓解,但从根源上解决更好。
  • 未讨论对极端遮挡(墨镜、面具)或光照变化的鲁棒性。

相关工作与启发

  • vs PanoHead/Portrait3D: 这些方法能生成360度视角但纹理质量有限且不可动画;FaceCraft4D 在此基础上增加了纹理增强和表情驱动。
  • vs Portrait-4D: 基于混合2D+3D表示,不能处理极端相机角度且缺少背面建模;FaceCraft4D 采用纯3D表示(高斯),设计上保证多视角一致。
  • vs AniPortrait: 纯2D方法纹理质量高但大角度旋转时身份丢失严重;FaceCraft4D 利用3D表示从根本上避免了这个问题。

评分

  • 新颖性: ⭐⭐⭐⭐ 三先验组合+COIN训练策略的设计新颖,但各模块使用的技术多为已有工作的组合
  • 实验充分度: ⭐⭐⭐⭐ 静态和动画都有对比+消融,但缺少用户研究
  • 写作质量: ⭐⭐⭐⭐ 图文并茂,pipeline 描述清楚,Tab.1 对比表非常直观
  • 价值: ⭐⭐⭐⭐ 系统工作,阶段性实用解决方案,COIN 训练策略有独立价值

相关论文