High-Fidelity Diffusion Face Swapping with ID-Constrained Facial Conditioning¶

会议: CVPR 2026 arXiv: 2503.22179 代码: 无领域: 扩散模型/图像生成 关键词: 人脸替换, 扩散模型, 身份约束, 条件解耦, 多阶段训练

一句话总结¶

提出身份约束的属性调优框架用于扩散模型人脸替换：先约束身份解空间，再注入属性条件，最后端到端精炼身份损失和对抗损失，结合解耦条件注入设计，在 FFHQ 上实现 SOTA 的 FID（3.61）和身份检索准确率（97.9% Top-1）。

研究背景与动机¶

人脸替换（Face Swapping）将源人脸的身份迁移到目标人脸上，同时保持目标的表情、姿态等属性。这在影视制作、游戏、数字孪生等领域有重要应用。

传统 GAN 方法（SimSwap、E4S、InfoSwap）受限于 GAN 本身的图像质量和模式崩塌问题。扩散模型凭借更强的生成能力成为新方向，但现有扩散方法（DiffFace、DiffSwap、REFace）面临两个核心挑战：

身份与属性的优先级问题：人脸替换中身份保持应优先于属性一致性——结果首先要"像"源人脸，其次才是跟目标表情/姿态对齐。但现有方法通常联合注入所有条件，缺乏优先级控制。
身份-属性条件冲突：身份条件驱动输出接近源人脸，属性条件驱动输出接近目标人脸，两者在训练中方向相反（见论文 Fig.3），联合训练容易陷入次优解。

方法详解¶

整体框架¶

基于 Stable Diffusion 1.5 的条件修复框架。输入源人脸图像和目标人脸图像，输出替换了身份的目标图像。核心思路是：先约束身份 → 再调优属性 → 最后端到端精炼，分三阶段训练，逐步缩小解空间。

关键设计¶

解耦条件注入（Decoupled Facial Condition Injection）:
数据层面解耦：不同于以往用同一图像做增强生成条件对（容易泄露身份和属性信息），本文使用同一人不同属性的配对图像，从根本上解耦身份与属性特征
双路径提取：身份路径使用 ArcFace 人脸识别模型提取 $d$ 维特征，通过 MLP 扩展为 $n \times d$ 的 token 序列 $c_{\text{face}}$，再用 DINOv2 提取空间细节特征 $c_{\text{dino}}$，通过交叉注意力融合： $$c_{\text{id}} = c_{\text{face}} + \lambda_{\text{id}} \cdot \text{Attention}(c_{\text{face}}, c_{\text{dino}}, c_{\text{dino}})$$ 属性路径使用 SimSwap 的 3 层下采样网络从目标人脸提取表情特征 $c_{\text{attr}}$
注意力融合：身份特征作为 query、属性特征作为 key-value，通过融合因子 $\lambda_{\text{fuse}}$ 控制属性注入强度： $$c_{\text{fuse}} = c_{\text{id}} + \lambda_{\text{fuse}} \cdot \text{Attention}(c_{\text{id}}, c_{\text{attr}}, c_{\text{attr}})$$ 当 $\lambda_{\text{fuse}} = 0$ 时退化为纯身份条件。融合特征通过 GLIGEN 适配器注入 UNet 交叉注意力层。
身份约束的多阶段训练（Identity-Constrained Facial Conditioning）:
Stage 1 — 身份导向调优：扩展 UNet 输入层接受噪声隐变量 $x_t$、修复区域掩码 $m$ 和背景上下文 $(1-m) \odot x_t$。仅使用身份条件（$\lambda_{\text{fuse}} = 0$），无属性约束，将模型解空间收缩到身份一致的输出区域
Stage 2 — 属性调优：启用属性条件（$\lambda_{\text{fuse}} = 1$），引导模型在保持身份约束的前提下对齐目标表情和姿态。两个关键细节：(a) 融合模块输出层零初始化，避免属性注入破坏已学的身份特征；(b) 降低身份空间增强因子 $\lambda_{\text{id}}$ 至 0.2，防止身份条件过强而忽视属性
Stage 3 — 端到端精炼：将 50 步 DDIM 采样视为级联端到端生成模型，在采样结果上施加身份损失和对抗损失： $$\mathcal{L} = \lambda_{\text{adv}} \mathcal{L}_{\text{adv}} + \lambda_{\text{id}} \mathcal{L}_{\text{id}}$$ 为解决反向传播的内存开销，每个 mini-batch 仅从 50 步中随机采样 $k$ 步计算梯度
与 GAN 方法的关键区别:
DiffSwap/DiffFace 直接将 ID loss 加到噪声预测损失上，这放松了 ELBO 理论界，降低生成质量
REFace 在多步 DDIM 采样结果上加 ID loss，但计算量大
本文将 ID 监督独立为第三阶段，避免干扰扩散训练的 ELBO，同时利用 SNGAN 判别器进一步提升真实感

损失函数 / 训练策略¶

Stage 1-2：标准扩散噪声预测 MSE 损失 $\mathcal{L}_{\text{diff}} = \sum_t \lambda_t \|\epsilon_\theta(x_t; t) - \epsilon\|_2^2$
Stage 3：SNGAN hinge loss $\mathcal{L}_{\text{adv}}$ + ArcFace 身份损失 $\mathcal{L}_{\text{id}}$，随机 $k$ 步梯度计算
训练数据：450 万张互联网配对人脸图像（同一人不同属性），BLIP-2 标注文本描述
Stage 3 使用 LAION-5B 过滤的随机配对人脸数据
输出分辨率 $512 \times 512$

实验关键数据¶

主实验¶

在 FFHQ 验证集 1000 对上评估：

方法	FID↓	Pose↓	Expr.↓	ID Top-1↑(%)	ID Top-5↑(%)
SimSwap (GAN)	13.74	2.62	0.95	93.37	97.29
E4S (GAN)	12.22	4.55	1.32	77.80	87.40
InfoSwap (GAN)	4.26	3.26	1.00	92.82	97.69
DiffFace	8.82	3.76	1.31	91.50	97.50
DiffSwap	5.80	2.43	1.01	67.00	81.90
REFace	5.62	3.75	1.04	89.10	96.10
Ours	3.61	3.69	0.97	97.90	99.70

FID 大幅领先（3.61 vs 次优 4.26），身份检索准确率远超所有方法（97.9% vs 93.4%），表情距离与最佳持平。

消融实验¶

配置	关键指标	说明
非解耦条件注入	身份保持弱，过拟合于属性跟随	同一图像增强生成条件对导致 ID/属性泄露
仅 Stage 1	身份好，表情/姿态差	无属性条件引导
Stage 1+2	身份好，表情/姿态/光照改善	属性调优有效，SimSwap 编码器还能捕获光照
Stage 1+2+3	身份和真实感显著提升	端到端精炼的 GAN+ID loss 必要

关键发现¶

解耦注入是核心：不解耦时模型过拟合于属性跟随，身份保持大幅下降
多阶段训练有效：每个阶段都有明确可观察的提升，Stage 2 还意外带来光照对齐和脸型调整
端到端精炼提升真实感：Stage 3 的 ID loss + GAN loss 显著增强身份相似度和生成保真度
扩散模型的独特优势：预训练基础模型提供了开箱即用的泛化能力，对风格化图像（油画、卡通等 <1% 训练数据）也能稳健处理
用户研究（39人）：在保真度维度获得 57.1% 选票（远超第二名 15.3%），属性一致性 33.2% 也排第一

亮点与洞察¶

身份优先的直觉简洁有力：将"先像再准"的直觉形式化为约束优化——先收缩解空间到身份一致区域，再在该子空间内优化属性对齐，避免两个条件在全空间中互相拉扯
分阶段 loss 设计避免理论矛盾：将 ID loss 分离到独立的 Stage 3，不污染 Stage 1-2 的 ELBO，是比 DiffSwap/DiffFace 更优雅的做法
零初始化 + 弱化身份因子的 Stage 2 设计细节精妙，有效防止灾难性遗忘和条件失衡
SimSwap 编码器的意外收益：不仅编码表情/姿态，还隐式捕获光照条件，是值得注意的副产品

局限性 / 可改进方向¶

基于 SD 1.5（$512 \times 512$），受限于基础模型分辨率，未使用更现代的 DiT/FLUX 架构
Pose 距离（3.69）不如 DiffSwap（2.43），说明身份约束一定程度上牺牲了姿态对齐
Stage 3 需要 50 步 DDIM 采样+反向传播，训练成本高（虽通过随机 $k$ 步缓解）
450 万训练数据来自互联网，数据质量和隐私问题未讨论
缺乏对跨种族、跨年龄等困难场景的系统评估

评分¶

新颖性: ⭐⭐⭐⭐ 身份约束的多阶段训练范式和解耦条件注入设计新颖，直觉清晰
实验充分度: ⭐⭐⭐⭐ 6 个对比方法、定量+用户研究+充分的消融和可视化分析
写作质量: ⭐⭐⭐⭐ 动机阐述清楚，Fig.2/3 对条件冲突的可视化very直观
价值: ⭐⭐⭐⭐ 多条件解耦和优先级训练的思想具有通用性，超越人脸替换单一任务