PERSE: Personalized 3D Generative Avatars from A Single Portrait¶
会议: CVPR 2025
arXiv: 2412.21206
代码: 有(项目页面)
领域: 3D视觉
关键词: 个性化头像, 3D高斯溅射, 面部属性编辑, 潜在空间解耦, 合成数据
一句话总结¶
PERSE 从单张肖像照出发,通过合成大规模面部属性编辑视频数据集并训练基于 3DGS 的生成式头像模型,实现了在连续可解耦的潜在空间中对面部属性进行平滑插值编辑,同时保持个体身份一致性。
研究背景与动机¶
领域现状:3D 面部头像生成是 AR/VR、数字人、影视制作等领域的核心技术。近年来,3D 感知的面部生成取得了显著进展,如基于 3DMM、NeRF 和 3DGS 的方法。然而,大多数方法要么需要多视角输入,要么只支持有限的属性编辑能力。
现有痛点:现有方法面临三个核心挑战:(1) 从单张照片创建高质量 3D 头像时难以保持身份一致性;(2) 面部属性编辑(如年龄、发型、肤色)通常是离散的,缺乏连续平滑的过渡;(3) 不同属性之间耦合严重——编辑一个属性(如添加眼镜)可能意外改变其他属性(如发型、表情)。
核心矛盾:要实现连续、可解耦的面部属性编辑,需要大量带有精确属性标注的多视角训练数据,但这样的数据在现实中几乎不可能获得。同时,3D 潜在空间的平滑性和解耦性需要特殊的正则化,否则插值结果会出现伪影。
本文目标:构建一个从单张肖像创建个性化 3D 头像的系统,该头像支持多种面部属性的连续、解耦编辑,且编辑过程中身份保持不变。
切入角度:通过精心设计的合成数据管线生成大规模面部属性编辑视频,为每个属性提供连续变化的监督信号,然后在此基础上训练一个支持连续潜在空间编辑的 3DGS 头像。
核心 idea:用合成数据解决训练数据缺失问题,用潜在空间正则化技术(基于插值 2D 面部的监督)保证属性编辑的平滑性和解耦性。
方法详解¶
整体框架¶
整个方法分为两个阶段。第一阶段:合成训练数据——给定参考肖像,使用一系列 2D 面部编辑和生成模型,合成包含面部表情变化、视角变化以及特定面部属性变化的高质量视频数据集。第二阶段:训练个性化头像——以合成视频为监督,训练一个基于 3DGS 的生成式头像模型,学习一个连续且解耦的潜在空间来控制各个面部属性。
关键设计¶
-
合成面部属性编辑视频管线:
- 功能:生成大规模、高质量、身份一致的面部属性编辑视频数据
- 核心思路:以参考肖像为起点,使用现有的 2D 面部编辑方法(如 StyleGAN-based 编辑或 diffusion-based 编辑)生成属性变化的 2D 图像序列。为每种属性(如年龄、发型、胡须等)分别生成变化序列,同时在每个序列中引入表情和视角变化。关键在于确保整个过程中身份一致性——通过身份保持损失和面部重识别网络来筛选高质量的合成结果
- 设计动机:真实的多视角属性编辑数据几乎不可能收集,合成数据管线是唯一可行的获取方式。仔细的质量控制(身份一致性筛选)确保训练数据不会引入身份漂移
-
基于 3DGS 的连续潜在空间学习:
- 功能:学习一个连续且解耦的潜在空间,每个维度控制一种面部属性
- 核心思路:头像模型以一组 3D 高斯为基础表示,每个高斯的属性(位置、颜色、不透明度、协方差)由一个解码器从潜在向量 \(z\) 生成。潜在向量 \(z\) 被分解为多个子向量 \(z = [z_{\text{exp}}, z_{\text{attr}_1}, z_{\text{attr}_2}, ...]\),分别控制表情和各种面部属性。训练时,对于每种属性变化的视频,只改变对应的子向量而固定其他子向量,通过重建损失迫使模型学会将不同属性对应到不同的潜在维度
- 设计动机:解耦的潜在空间设计确保编辑一个属性时不会影响其他属性,连续的潜在空间允许平滑的属性过渡,而非离散的跳变
-
潜在空间正则化(插值监督):
- 功能:保证潜在空间中插值路径对应的渲染结果也是自然、平滑的
- 核心思路:在两个已知的属性状态 \(z_a\) 和 \(z_b\) 之间做线性插值 \(z_t = (1-t) z_a + t z_b\),将插值潜在向量解码为 3D 高斯并渲染 2D 图像。同时,用 2D 面部编辑模型生成对应插值程度的 2D 参考面部,以此作为监督信号。这样即使训练数据只提供了离散的属性样本,模型也能学会在它们之间做自然的过渡
- 设计动机:没有插值监督,模型可能学会"跳跃式"的属性变化——潜在空间中相邻的两个点对应完全不同的外观。正则化技术强制潜在空间的平滑性,是连续编辑的关键保障
损失函数 / 训练策略¶
训练损失包括多项:(1) L1 像素重建损失和感知损失(LPIPS),监督渲染结果与合成视频的匹配;(2) 身份一致性损失,使用面部识别网络确保不同属性状态下的渲染保持相同身份;(3) 插值正则化损失,监督潜在空间插值的 2D 渲染质量。训练过程采用逐步增加属性维度的课程学习策略。
实验关键数据¶
主实验(与 baseline 对比)¶
| 方法 | 身份保持 (ID Sim)↑ | 属性编辑质量 (FID)↓ | 插值平滑度↑ | 多视角一致性↑ |
|---|---|---|---|---|
| PERSE (Ours) | 最优 | 最优 | 最优 | 最优 |
| HeadNeRF | 中 | 中 | 差 | 中 |
| Next3D | 中 | 较优 | 中 | 中 |
| GAN-based 3D | 较优 | 中 | 中 | 差 |
消融实验¶
| 配置 | ID Sim↑ | 插值平滑度↑ | 属性解耦度↑ |
|---|---|---|---|
| Full model | 最优 | 最优 | 最优 |
| w/o 插值正则化 | 相近 | 显著下降 | 下降 |
| w/o 解耦潜在空间 | 相近 | 中 | 显著下降 |
| w/o 身份一致性损失 | 下降 | 相近 | 相近 |
| w/o 合成数据质量筛选 | 下降 | 下降 | 下降 |
关键发现¶
- 插值正则化是连续编辑的关键:去掉插值监督后,属性编辑虽然在端点仍然有效,但中间过渡变得不自然,出现明显的"跳变"现象
- 合成数据的质量直接决定最终结果:身份一致性筛选非常重要——未筛选的合成数据中约有 15-20% 存在身份漂移,这些噪声数据会导致训练出的头像在属性编辑时也出现身份变化
- 3DGS 表示比 NeRF 更适合此任务:3DGS 的显式高斯表示使得潜在空间到 3D 外观的映射更加直接,训练速度也快得多(约 10 倍)
亮点与洞察¶
- "合成数据 + 质量筛选"的策略非常实用:在缺乏真实训练数据的场景下,用一系列 2D 模型合成 3D 所需的训练数据是一种可扩展的方案。这个策略可以迁移到其他需要精确标注的 3D 生成任务
- 潜在空间插值监督的思路很优雅:用 2D 面部编辑模型生成的插值结果作为"伪 GT"来正则化 3D 潜在空间,巧妙地将 2D 领域的成熟技术迁移到 3D 设计中
- 解耦的潜在空间设计有广泛适用性:将不同语义维度分配到不同子向量的做法,适用于所有需要可控生成的 3D 任务(如服装编辑、场景风格化等)
局限与展望¶
- 依赖 2D 编辑模型的质量:合成数据的质量上限受限于所用 2D 面部编辑/生成模型的能力。对于复杂属性(如大幅度发型变化),2D 模型可能无法生成足够一致的结果
- 单人头像,不支持多人交互:每次只能为一个人创建头像,无法建模多人之间的交互(如两人对话时的面部动态)
- 属性种类有限:目前支持的面部属性(年龄、发型、胡须等)是预定义的,无法在推理时动态添加新的编辑维度
- 身体部分缺失:仅覆盖面部和头部区域,不包含身体,限制了在全身数字人场景中的应用
相关工作与启发¶
- vs HeadNeRF/Next3D: 这些方法使用 NeRF 表示,推理慢且属性编辑通常不连续。PERSE 用 3DGS 提升效率,用插值正则化保证平滑性
- vs StyleGAN-based 3D: GAN 方法通过潜在空间操控实现编辑,但 3D 一致性较差。PERSE 直接在 3D 空间中学习,多视角一致性更好
- vs Gaussian Head Avatar: GHA 类方法重点在表情驱动不在属性编辑。PERSE 将属性编辑作为核心目标,通过专门的合成数据和潜在空间设计实现
评分¶
- 新颖性: ⭐⭐⭐⭐ 合成数据管线 + 插值正则化的组合方案有新意,解决了实际的数据缺失问题
- 实验充分度: ⭐⭐⭐⭐ 对比了多种 baseline,消融实验覆盖了关键模块
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,可视化效果好
- 价值: ⭐⭐⭐⭐ 在数字人/虚拟形象领域有直接应用价值,特别是单照片创建可编辑头像的场景
相关论文¶
- [CVPR 2025] Coherent 3D Portrait Video Reconstruction via Triplane Fusion
- [NeurIPS 2025] SyncHuman: Synchronizing 2D and 3D Generative Models for Single-View Human Reconstruction
- [CVPR 2025] DiffPortrait360: Consistent Portrait Diffusion for 360° View Synthesis
- [CVPR 2025] Ctrl-D: Controllable Dynamic 3D Scene Editing with Personalized 2D Diffusion
- [ICCV 2025] GAS: Generative Avatar Synthesis from a Single Image