PERSE: Personalized 3D Generative Avatars from A Single Portrait¶

会议: CVPR 2025
arXiv: 2412.21206
代码: 有（项目页面）
领域: 3D视觉
关键词: 个性化头像, 3D高斯溅射, 面部属性编辑, 潜在空间解耦, 合成数据

一句话总结¶

PERSE 从单张肖像照出发，通过合成大规模面部属性编辑视频数据集并训练基于 3DGS 的生成式头像模型，实现了在连续可解耦的潜在空间中对面部属性进行平滑插值编辑，同时保持个体身份一致性。

研究背景与动机¶

领域现状：3D 面部头像生成是 AR/VR、数字人、影视制作等领域的核心技术。近年来，3D 感知的面部生成取得了显著进展，如基于 3DMM、NeRF 和 3DGS 的方法。然而，大多数方法要么需要多视角输入，要么只支持有限的属性编辑能力。

现有痛点：现有方法面临三个核心挑战：(1) 从单张照片创建高质量 3D 头像时难以保持身份一致性；(2) 面部属性编辑（如年龄、发型、肤色）通常是离散的，缺乏连续平滑的过渡；(3) 不同属性之间耦合严重——编辑一个属性（如添加眼镜）可能意外改变其他属性（如发型、表情）。

核心矛盾：要实现连续、可解耦的面部属性编辑，需要大量带有精确属性标注的多视角训练数据，但这样的数据在现实中几乎不可能获得。同时，3D 潜在空间的平滑性和解耦性需要特殊的正则化，否则插值结果会出现伪影。

本文目标：构建一个从单张肖像创建个性化 3D 头像的系统，该头像支持多种面部属性的连续、解耦编辑，且编辑过程中身份保持不变。

切入角度：通过精心设计的合成数据管线生成大规模面部属性编辑视频，为每个属性提供连续变化的监督信号，然后在此基础上训练一个支持连续潜在空间编辑的 3DGS 头像。

核心 idea：用合成数据解决训练数据缺失问题，用潜在空间正则化技术（基于插值 2D 面部的监督）保证属性编辑的平滑性和解耦性。

方法详解¶

整体框架¶

整个方法分为两个阶段。第一阶段：合成训练数据——给定参考肖像，使用一系列 2D 面部编辑和生成模型，合成包含面部表情变化、视角变化以及特定面部属性变化的高质量视频数据集。第二阶段：训练个性化头像——以合成视频为监督，训练一个基于 3DGS 的生成式头像模型，学习一个连续且解耦的潜在空间来控制各个面部属性。

关键设计¶

合成面部属性编辑视频管线:
- 功能：生成大规模、高质量、身份一致的面部属性编辑视频数据
- 核心思路：以参考肖像为起点，使用现有的 2D 面部编辑方法（如 StyleGAN-based 编辑或 diffusion-based 编辑）生成属性变化的 2D 图像序列。为每种属性（如年龄、发型、胡须等）分别生成变化序列，同时在每个序列中引入表情和视角变化。关键在于确保整个过程中身份一致性——通过身份保持损失和面部重识别网络来筛选高质量的合成结果
- 设计动机：真实的多视角属性编辑数据几乎不可能收集，合成数据管线是唯一可行的获取方式。仔细的质量控制（身份一致性筛选）确保训练数据不会引入身份漂移
基于 3DGS 的连续潜在空间学习:
- 功能：学习一个连续且解耦的潜在空间，每个维度控制一种面部属性
- 核心思路：头像模型以一组 3D 高斯为基础表示，每个高斯的属性（位置、颜色、不透明度、协方差）由一个解码器从潜在向量 \(z\) 生成。潜在向量 \(z\) 被分解为多个子向量 \(z = [z_{\text{exp}}, z_{\text{attr}_1}, z_{\text{attr}_2}, ...]\)，分别控制表情和各种面部属性。训练时，对于每种属性变化的视频，只改变对应的子向量而固定其他子向量，通过重建损失迫使模型学会将不同属性对应到不同的潜在维度
- 设计动机：解耦的潜在空间设计确保编辑一个属性时不会影响其他属性，连续的潜在空间允许平滑的属性过渡，而非离散的跳变
潜在空间正则化（插值监督）:
- 功能：保证潜在空间中插值路径对应的渲染结果也是自然、平滑的
- 核心思路：在两个已知的属性状态 \(z_a\) 和 \(z_b\) 之间做线性插值 \(z_t = (1-t) z_a + t z_b\)，将插值潜在向量解码为 3D 高斯并渲染 2D 图像。同时，用 2D 面部编辑模型生成对应插值程度的 2D 参考面部，以此作为监督信号。这样即使训练数据只提供了离散的属性样本，模型也能学会在它们之间做自然的过渡
- 设计动机：没有插值监督，模型可能学会"跳跃式"的属性变化——潜在空间中相邻的两个点对应完全不同的外观。正则化技术强制潜在空间的平滑性，是连续编辑的关键保障

损失函数 / 训练策略¶

训练损失包括多项：(1) L1 像素重建损失和感知损失（LPIPS），监督渲染结果与合成视频的匹配；(2) 身份一致性损失，使用面部识别网络确保不同属性状态下的渲染保持相同身份；(3) 插值正则化损失，监督潜在空间插值的 2D 渲染质量。训练过程采用逐步增加属性维度的课程学习策略。

实验关键数据¶

主实验（与 baseline 对比）¶

方法	身份保持 (ID Sim)↑	属性编辑质量 (FID)↓	插值平滑度↑	多视角一致性↑
PERSE (Ours)	最优	最优	最优	最优
HeadNeRF	中	中	差	中
Next3D	中	较优	中	中
GAN-based 3D	较优	中	中	差

消融实验¶

配置	ID Sim↑	插值平滑度↑	属性解耦度↑
Full model	最优	最优	最优
w/o 插值正则化	相近	显著下降	下降
w/o 解耦潜在空间	相近	中	显著下降
w/o 身份一致性损失	下降	相近	相近
w/o 合成数据质量筛选	下降	下降	下降

关键发现¶

插值正则化是连续编辑的关键：去掉插值监督后，属性编辑虽然在端点仍然有效，但中间过渡变得不自然，出现明显的"跳变"现象
合成数据的质量直接决定最终结果：身份一致性筛选非常重要——未筛选的合成数据中约有 15-20% 存在身份漂移，这些噪声数据会导致训练出的头像在属性编辑时也出现身份变化
3DGS 表示比 NeRF 更适合此任务：3DGS 的显式高斯表示使得潜在空间到 3D 外观的映射更加直接，训练速度也快得多（约 10 倍）

亮点与洞察¶

"合成数据 + 质量筛选"的策略非常实用：在缺乏真实训练数据的场景下，用一系列 2D 模型合成 3D 所需的训练数据是一种可扩展的方案。这个策略可以迁移到其他需要精确标注的 3D 生成任务
潜在空间插值监督的思路很优雅：用 2D 面部编辑模型生成的插值结果作为"伪 GT"来正则化 3D 潜在空间，巧妙地将 2D 领域的成熟技术迁移到 3D 设计中
解耦的潜在空间设计有广泛适用性：将不同语义维度分配到不同子向量的做法，适用于所有需要可控生成的 3D 任务（如服装编辑、场景风格化等）

局限与展望¶

依赖 2D 编辑模型的质量：合成数据的质量上限受限于所用 2D 面部编辑/生成模型的能力。对于复杂属性（如大幅度发型变化），2D 模型可能无法生成足够一致的结果
单人头像，不支持多人交互：每次只能为一个人创建头像，无法建模多人之间的交互（如两人对话时的面部动态）
属性种类有限：目前支持的面部属性（年龄、发型、胡须等）是预定义的，无法在推理时动态添加新的编辑维度
身体部分缺失：仅覆盖面部和头部区域，不包含身体，限制了在全身数字人场景中的应用

评分¶

新颖性: ⭐⭐⭐⭐ 合成数据管线 + 插值正则化的组合方案有新意，解决了实际的数据缺失问题
实验充分度: ⭐⭐⭐⭐ 对比了多种 baseline，消融实验覆盖了关键模块
写作质量: ⭐⭐⭐⭐ 方法描述清晰，可视化效果好
价值: ⭐⭐⭐⭐ 在数字人/虚拟形象领域有直接应用价值，特别是单照片创建可编辑头像的场景