FaceCraft4D: Animated 3D Facial Avatar Generation from a Single Image¶

会议: ICCV 2025
arXiv: 2504.15179
代码: 无
领域: 扩散模型 / 3D视觉 / 人脸生成
关键词: 4D头部生成, 单图驱动, 3D高斯, FLAME, 多视角一致性

一句话总结¶

本文提出 FaceCraft4D 框架，通过组合 3D形状先验（PanoHead GAN反演）、2D图像先验（扩散模型增强纹理）和视频先验（LivePortrait 生成表情动画），从单张图像生成可动画的360度4D面部头像，并提出 COIN 训练策略解决多视角数据不一致问题，实现高质量实时渲染（156 FPS）。

研究背景与动机¶

领域现状：4D头部生成（可驱动的3D头部模型）在游戏、影视、教育中有广泛应用。现有高质量方法（如 HQ3DAvatar、GaussianAvatar）通常要求多视角视频输入和精确的相机姿态估计。

现有痛点： - 需要多视角视频采集，实际部署不现实 - 单图方法要么无法生成360度视角（如 Portrait-4D），要么无法建模表情动画（如 PanoHead） - 基于2D表示的方法（如 AniPortrait）天然缺乏多视角一致性 - 混合2D+3D表示的方法无法处理极端相机角度

核心矛盾：单张图像信息极度受限——缺乏深度、多视角和动态表情信息，但收集多视角全头动画数据集又非常困难，无法端到端训练。

本文目标 从单张图像同时实现：(a) 360度全视角覆盖；(b) 可控表情动画；(c) 多视角一致的高质量纹理；(d) 纯3D表示实现实时渲染。

切入角度：分而治之——分别利用3D GAN（形状先验）、图像扩散模型（纹理先验）、视频模型（表情先验）三种互补先验合成个性化多视角数据，再训练显式3D表示。

核心 idea：组合3D形状/2D图像/视频三种先验合成多视角表情数据，通过 COIN 训练策略从不一致数据中鲁棒重建4D高斯头像。

方法详解¶

整体框架¶

FaceCraft4D 分为两大阶段：个性化多视角生成和 4D表示优化。第一阶段依次利用三种先验生成个性化高质量多视角表情图像，第二阶段将合成数据用于训练可动画的3D高斯表示。

关键设计¶

形状先验（Shape Prior）——PanoHead GAN 反演
- 功能：从单张输入图像获取粗略的3D形状和近似纹理。
- 核心思路：利用预训练的 PanoHead（支持360度的3D-GAN）进行 GAN 反演。先通过最小化 \(\mathcal{L}_2\) + LPIPS 损失优化潜在向量 \(z\)，再固定 \(z\) 微调GAN参数。优化后的生成器渲染出多视角粗略图像 \(\{I_i\}\) 和深度图 \(\{D_i\}\)。
- 设计动机：PanoHead 在大规模头部数据上训练，编码了完整头部形状的先验知识，为后续处理提供了包括后脑勺在内的完整3D形状初始化。
图像先验（Image Prior）——扩散模型增强纹理
- 功能：利用2D扩散模型（Cosmicman）增强 GAN 反演产出的粗糙多视角纹理，同时保持视角间一致性。
- 核心思路：提出两个关键约束：
  - 跨视角互注意力（Cross-view Mutual Attention）：受 MasaCtrl 启发，在扩散模型去噪过程中，将新视角的自注意力 K/V 替换为参考图像的 K/V，将多视角图像作为 batch 处理，以参考图像为统一信息源。
  - 基于变形的控制信号（Warping-based Control）：利用深度图将锚定视角（参考图+背面视角）的纹理投射到邻近视角，通过可见性 mask 过滤不可见区域，再与扩散模型的中间 latent 混合。
- 设计动机：直接用 image-to-image 翻译会破坏跨视图一致性并修改语义内容；triplane 方法对焦距敏感，质量随焦距变化大幅退化。通过几何约束+注意力共享确保增强后的纹理跨视角一致。
视频先验（Video Prior）——LivePortrait 生成表情动画
- 功能：利用 LivePortrait 为多视角静态图像生成同步的表情动画数据。
- 核心思路：将增强后的多视角图像 \(\{I_i^*\}\) 和参考图像作为源图像输入 LivePortrait，使用相同的驱动视频（来自 NerSemble 数据集）确保表情同步。由于输入视角间身份一致，输出视频也保持身份一致。
- 设计动机：静态生成阶段无法提供表情依赖的纹理信息（如嘴巴内部细节），需要视频先验补充动态信息。
COIN 训练策略（COnsistent-INconsistent Training）
- 功能：从有小幅不一致的多视角数据中鲁棒重建高质量4D表示。
- 核心思路：联合训练两个表示——一致性 GaussianAvatar（基于 FLAME 的3D高斯，用 LPIPS 损失监督结构）和 不一致性 MLP（学习每个视角的颜色偏移 \(c_{offset} = \text{MLP}(e_{view}, c, e_g; \theta)\)，用 L1+SSIM 损失捕获高频细节）。推理时固定使用参考视角的 view embedding。
- 设计动机：合成的多视角数据不可避免存在颜色和特征微小错位。直接在不一致数据上训练会导致模糊纹理。COIN 将不一致性隔离到单独的 MLP 中，防止其污染基础表示，类似鲁棒回归。

损失函数 / 训练策略¶

像素级损失：\(\mathcal{L}_{pixel} = \lambda_1 \mathcal{L}_1(I_i^{IC}, I_i^*) + \lambda_{SSIM} \text{SSIM}(I_i^{IC}, I_i^*)\)
结构监督损失：\(\mathcal{L}_{struc} = \lambda_{LPIPS} \text{LPIPS}(I_i^C, I_i^*)\)
正则化损失：\(\mathcal{L}_{reg} = \lambda_{offset} \mathcal{L}_1(c_{offset}, 0)\)
超参数：\(\lambda_1 = 0.8\)，\(\lambda_{SSIM} = 0.2\)，\(\lambda_{LPIPS} = 0.05\)，\(\lambda_{offset} = 1\)
先静态优化30K迭代，再 COIN 微调90K迭代；总生成时间约2.5小时，推理156 FPS@512×512

实验关键数据¶

主实验：静态3D头部生成（定量对比）¶

方法	CLIP-I ↑	ID ↑	FID ↓
GaussianCube	0.6830	0.4300	258.81
PanoHead	0.8233	0.4246	195.28
SV3D	0.7656	0.4331	234.86
Portrait3D	0.7066	0.3719	302.74
FaceCraft4D	0.8053	0.5082	174.36

3D头部动画对比：

方法	CLIP-I ↑	ID ↑	FID ↓
AniPortrait	0.4653	0.4171	364.99
Portrait-4D	0.5236	0.4592	248.36
FaceCraft4D	0.5737	0.4602	201.76

消融实验¶

多视角图像生成模块消融：

配置	CLIP-I ↑	ID ↑	FID ↓
w/o Warp w/o MA	0.7328	0.4787	182.27
w/o Warp	0.7886	0.4915	171.08
w/o MA (互注意力)	0.8151	0.4951	172.43
Full	0.8162	0.4984	166.96

动画模块消融：

配置	CLIP-I ↑	ID ↑	FID ↓
w/o COIN	0.7688	0.4952	144.95
Full	0.7729	0.5010	142.80

关键发现¶

ID 保持方面优势显著：FaceCraft4D 的 ID 分数（0.5082）远超所有基线，说明身份一致性保持很好。
Warping 模块保留细节：如纹身等细细节在新视角中得以保留；互注意力解决性别一致性等语义问题。
COIN 训练关键：没有 COIN 时纹理模糊，牙齿和发丝等高频细节丢失。
多输入鲁棒性强：卡通、线稿、极端姿态的图像也能生成一致的4D头像。
生成耗时约2.5小时，与 GaussianAvatar（2小时）等优化方法相当，推理速度极快（156 FPS）。

亮点与洞察¶

三先验组合策略：形状+纹理+动态三个先验各司其职，优雅地解决了单图4D重建这个高度病态问题。这种模块化先验组合的思路对其他 ill-posed 任务有很强的借鉴意义。
COIN 训练范式新颖：将不一致性显式分离到独立模块，比传统鲁棒损失函数（如 L1）更优因为能保持不一致性的空间位置信息。这一思路可推广到任何需要从不完美合成数据中学习的场景。
工程完整度高：从生成到渲染的完整 pipeline，支持 FLAME 参数驱动，156 FPS 实时渲染，实用性强。

局限与展望¶

生成单个头像需约2.5小时（主要在 COIN 训练阶段），离实时应用有差距。
依赖 PanoHead 的 GAN 反演质量作为初始化，如果反演失败（如极端遮挡），整个 pipeline 会受影响。
扩散模型增强纹理仍可能引入微小的跨视角不一致——虽然 COIN 能缓解，但从根源上解决更好。
未讨论对极端遮挡（墨镜、面具）或光照变化的鲁棒性。

评分¶

新颖性: ⭐⭐⭐⭐ 三先验组合+COIN训练策略的设计新颖，但各模块使用的技术多为已有工作的组合
实验充分度: ⭐⭐⭐⭐ 静态和动画都有对比+消融，但缺少用户研究
写作质量: ⭐⭐⭐⭐ 图文并茂，pipeline 描述清楚，Tab.1 对比表非常直观
价值: ⭐⭐⭐⭐ 系统工作，阶段性实用解决方案，COIN 训练策略有独立价值