PFAvatar: Pose-Fusion 3D Personalized Avatar Reconstruction from Real-World Outfit-of-the-Day Photos¶

会议: AAAI 2026
arXiv: 2511.12935
代码: 无
领域: 3D视觉
关键词: 3D头像重建, OOTD照片, 扩散模型, NeRF, Score Distillation Sampling

一句话总结¶

提出 PFAvatar，通过两阶段方法（姿态感知扩散模型微调 + NeRF蒸馏）从真实世界"每日穿搭"(OOTD)照片中重建高质量3D人物头像，在仅5分钟内完成个性化定制，较先前方法实现48倍加速。

研究背景与动机¶

将日常照片转化为个性化3D人体模型是一个新颖且实用的任务。"每日穿搭"(OOTD)照片具有几个显著特点：(1)跨图像一致的身份、服装、发型和配饰，(2)姿态和比例多样，(3)频繁遮挡和严重截断，(4)复杂背景下的不同视角。这些特点对现有3D重建方法构成严峻挑战。

先前的代表性工作 PuzzleAvatar 采用"分解-组装"策略：将OOTD照片分割为多个语义资产（衣物、配饰、面部、发型），每个关联一个 Stable Diffusion token，再组装为3D头像。但这种方法存在三个关键问题：

分割不一致性：细粒度分割容易引入视觉不一致（如分割边界错位、部件标注错误），导致组装后的3D模型出现接缝和伪影。

不支持姿态可控生成：由于分别学习各个部件，无法生成特定姿态的完整人体图像，在SDS优化时易出现 Janus 问题。

训练效率低：学习多个独立组件显著增加训练时间（约4小时），限制了实用性。

网格表示的局限性：DMTet 的拓扑受限于初始网格结构，难以表达复杂拓扑变化（如头发丝、衣物纹理）。

PFAvatar 针对这些问题提出了全新的端到端方案，避免分解，直接建模全身外观。

方法详解¶

整体框架¶

PFAvatar 包含两个阶段： 1. ControlBooth：在少量 OOTD 照片上微调一个姿态感知扩散模型 \(\mathcal{M}_b\) 2. BoothAvatar：从微调后的 \(\mathcal{M}_b\) 蒸馏出一个基于 NeRF 的3D头像

关键设计¶

1. ControlBooth：姿态感知扩散模型¶

功能：训练一个能够根据任意姿态条件生成个性化人物图像的扩散模型。

数据预处理流程： - 使用 Ground-SAM 分离前景人物与背景（仅隔离人体区域，避免细粒度部件分割的不一致问题） - 使用预训练 ControlNet 预测每张图像的姿态 \(\{\mathcal{P}_i\}\) - 使用 GPT-4V 生成详细文本描述 \(\mathcal{T}_i\)（包含身体朝向、发型、服装等属性）

训练损失包含两部分：

重建扩散损失：

\[\mathcal{L}_{\text{rec}} = \mathbb{E}\left[\|\mathcal{D}_\theta(\alpha_t \mathcal{I}_i + \sigma_t \epsilon, \mathbf{c}_{t_i}, \mathbf{c}_{p_i}) - \mathcal{I}_i\|_2^2\right]\]

条件先验保持损失（CPPL）：这是本文的核心创新之一。在小样本微调时，模型容易过拟合于训练姿态，丧失姿态多样性生成能力（如Figure 3中间行的姿态僵化现象）。CPPL 通过使用冻结的预训练模型生成先验数据来正则化训练：

\[\mathcal{L}_{\text{cppl}} = \mathbb{E}\left[\lambda w'_t \|\mathcal{D}_\theta(\alpha_t \mathcal{I}_{pr_i} + \sigma_t \epsilon, \mathbf{c}_{prt_i}, \mathbf{c}_{prp_i}) - \mathcal{I}_{pr_i}\|_2^2\right]\]

设计动机：CPPL 本质上让模型在学习新身份的同时保持对多样姿态和视角的生成能力，防止语言漂移和控制漂移。仅需5分钟即可完成个性化，比 PuzzleAvatar 快48倍。

2. BoothAvatar：NeRF 表示与3D-SDS蒸馏¶

功能：从微调好的扩散模型中蒸馏出一个标准A-pose下的3D NeRF 头像。

选择 NeRF 而非网格的理由： - NeRF 的体密度天然处理遮挡（通过transmittance），避免生成假表面 - NeRF 的连续体渲染可以利用哈希网格等高频位置编码保留精细纹理（如发丝、图案） - 网格表示受分辨率依赖的离散化限制，在高频细节上表现不佳

采用 Instant-NGP 作为规范头像表示，通过3D-consistent SDS 优化：

\[\nabla_{\boldsymbol{\theta}} \mathcal{L}_{\text{3D-SDS}} = \mathbb{E}\left[w(t)(\boldsymbol{\epsilon}_\phi(\mathbf{x}_t; y, t, c) - \boldsymbol{\epsilon})\frac{\partial \mathbf{z}_t}{\partial \mathbf{x}}\frac{\partial \mathbf{x}}{\partial \boldsymbol{\theta}}\right]\]

其中条件图像 \(c\) 使用骨架图，提供最少结构先验以促进复杂头像生成。

3. 局部几何约束（Local Geometry Loss）¶

功能：解决 SDS 优化不稳定导致手部、面部等精细结构退化的问题。

基于预定义的身体部件网格，通过 margin ranking loss 将 NeRF 密度与部件网格对齐：

\[\mathcal{L}_{\text{geo}} = \begin{cases} (\max(0, \tau_{\max} - \tau(\mathbf{p})))^2 & \text{if } \mathbf{p} \text{ on mesh} \\ (\max(0, \tau(\mathbf{p}) - \tau_{\min}))^2 & \text{if } \mathbf{p} \text{ not on mesh} \end{cases}\]

设计动机：SDS 优化本身缺乏人体先验，容易产生模糊的手指和面部。通过预定义网格约束局部区域密度，保持精细结构的同时不限制全局优化。

损失函数 / 训练策略¶

ControlBooth 阶段：\(\mathcal{L}^{\text{CB}}_{\text{total}} = \mathcal{L}_{\text{rec}} + \lambda_{\text{cppl}} \mathcal{L}_{\text{cppl}}\)，\(\lambda_{\text{cppl}}=1\)
BoothAvatar 阶段：\(\mathcal{L}^{\text{BA}}_{\text{total}} = \mathcal{L}_{\text{3D-SDS}} + \lambda_{\text{geo}} \mathcal{L}_{\text{geo}}\)，\(\lambda_{\text{geo}}=1.0\)
多分辨率渐进采样：逐步增加上采样分辨率，实现更稳定的 SDS 训练

采样策略结合两个空间：(1)规范 SMPL-X 空间采样，生成更多姿态条件图像以确保3D一致性；(2)观察空间采样，获取更高质量的外观细节。

实验关键数据¶

主实验¶

身份保持性能比较（ControlBooth 阶段）¶

方法	CLIP-I (body)	CLIP-I (head)	DINO (body)	DINO (head)	CLIP-T (body)	CLIP-T (head)
PFAvatar	0.9016	0.9432	0.7282	0.9352	0.3036	0.2996
PuzzleAvatar	0.8147	0.7705	0.6257	0.6096	0.2340	0.1849
FreeCustom	0.8573	0.9337	0.7022	0.9222	0.2583	0.2811
InstantID	0.7687	0.8164	0.5977	0.8302	0.2164	0.2711

PuzzleIOI 基准重建质量¶

方法	PSNR↑	SSIM↑	LPIPS↓
PFAvatar	27.576	0.952	0.041
PuzzleAvatar	24.687	0.930	0.062
TECH	23.635	0.919	0.065
AvatarBooth	16.431	0.758	0.153

PFAvatar 在所有评估指标上均显著领先。

消融实验¶

配置	CLIP-I (body)	DINO (body)	CLIP-T (body)	说明
Full	0.9125	0.8072	0.3546	完整模型
w/o Head Part Data	0.8702	0.7154	0.2912	面部退化明显
w/o ControlBooth	0.8352	0.7091	0.2314	一致性和色彩偏移
w/o 3D-SDS	0.8021	0.7281	0.2281	A-pose生成受损
w/o \(\mathcal{L}_{\text{geo}}\)	0.8929	0.8011	0.3257	手部几何模糊
w/o Multi-sampling	0.8654	0.7486	0.2812	收敛慢、细节差

每个组件的去除都导致可见退化，证明设计的必要性。

关键发现¶

CPPL 有效防止过拟合：Figure 3 定性展示了无CPPL时模型过拟合于训练姿态，加入 CPPL 后可生成多样、可控的姿态。
NeRF 表示优于网格：NeRF 在处理遮挡和保留高频纹理方面明显优于 DMTet 网格。
下游应用丰富：重建的 NeRF 头像支持虚拟试穿、动画、面部动画和人体视频重现。

亮点与洞察¶

端到端设计避开分割瓶颈：直接建模全身外观，巧妙绕开了 PuzzleAvatar 的分割不一致问题。
5分钟个性化：比 PuzzleAvatar 快48倍，实用价值大幅提升。
CPPL 的正则化思想：用预训练模型的自生成数据做正则化，是解决少样本微调过拟合的优雅方案。
局部几何约束：巧妙利用人体部件的先验知识稳定 SDS 优化中的局部结构。

局限与展望¶

NeRF 表示相对较新，缺乏传统网格方法的丰富操作工具链（虽然文中展示了动画能力）。
依赖 GPT-4V 生成文本描述，增加了成本和对外部API的依赖。
对极端遮挡和严重截断的鲁棒性仍有提升空间（虽已优于基线）。
当前仅使用骨架条件，可以探索深度图+骨架的多条件控制进一步提升质量。

评分¶

新颖性: ⭐⭐⭐⭐ — CPPL 和端到端姿态感知方案新颖，NeRF 蒸馏的具体策略有创新
实验充分度: ⭐⭐⭐⭐ — 有两个数据集评估、多基线比较、用户研究、完整消融
写作质量: ⭐⭐⭐⭐ — 动机充分，对比清晰，图示丰富
实用价值: ⭐⭐⭐⭐⭐ — 5分钟个性化、支持多种下游应用，非常实用