Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm¶

会议: ECCV 2024
arXiv: 2403.11781
代码: 项目主页 (有)
领域: 图像生成
关键词: 身份保持生成, 个性化文生图, 风格控制, 注意力机制, SDXL

一句话总结¶

提出 Infinite-ID，通过 ID-语义解耦范式将身份信息和文本语义信息分离处理——训练阶段停用文本交叉注意力以专注学习身份嵌入，推理阶段通过混合注意力机制和 AdaIN-mean 操作融合两路信息，在单张参考图下同时实现高保真身份保持和语义一致性。

研究背景与动机¶

身份保持的个性化文生图（Identity-preserved Personalization）旨在根据一张或多张参考照片，生成保持特定人脸身份的新图像（新场景、新动作、新风格）。这在 AI 肖像、虚拟试穿等商业应用中需求巨大。

核心矛盾：ID 保真度（identity fidelity）与语义一致性（semantic consistency）之间存在严重权衡，根源在于图像信息和文本信息的纠缠。

现有 tuning-free 方法的两种典型思路：

方法类型	代表方法	融合方式	优势	缺陷
文本空间融合	PhotoMaker	在文本编码器空间合并 ID 信息	语义一致性好	图像特征被压缩，身份保真度低
U-Net 空间融合	IP-Adapter	额外 cross-attention 注入 ID 信息	ID 信息更强	训练时偏向图像分支，语义一致性差

两种方式都将图像和文本信息纠缠在一起。Infinite-ID 的核心思想是：训练时彻底解耦 ID 和语义，推理时再通过精心设计的机制重新融合。

方法详解¶

整体框架¶

Infinite-ID 基于 SDXL 构建，包含三个关键组件：

身份增强训练（Identity-enhanced Training）：训练阶段完全解耦 ID 和文本
混合注意力机制（Mixed Attention）：推理阶段融合 ID 和语义信息
AdaIN-mean 操作：推理阶段控制生成图像的风格

关键设计¶

1. 身份增强训练（训练阶段的核心）¶

与常规方法使用文本-图像对训练不同，Infinite-ID 采用全新策略：

排除文本 prompt 输入，停用 U-Net 中原始文本交叉注意力模块
训练对由同一个人不同照片构成（不同视角、表情），促进更全面的身份学习
仅训练 Face Mapper、CLIP Mapper 和图像交叉注意力模块，扩散模型参数冻结

这样做的核心好处：图像分支在训练时不会受到文本信号的干扰，能完全忠实地学习如何表示参考图像的身份信息。

训练损失简化为纯身份条件的扩散损失：

\[L_{\text{diffusion}} = E_{z_t, t, c_{id}, \epsilon}\left[\|\epsilon - \epsilon_\theta(z_t, t, c_{id})\|_2^2\right]\]

2. 面部嵌入提取器（Face Embeddings Extractor）¶

采用双特征提取策略，互补捕获身份信息：

(a) CLIP 图像编码器： - 使用 OpenCLIP ViT-H/14 - 提取 last hidden states（$N=257$ 个 token 的序列嵌入） - 通过 CLIP Mapper 投影到扩散模型的特征维度 - 主要捕获面部的结构信息

(b) 人脸识别骨干网络： - 使用 ArcFace 骨干 - 提取全局图像嵌入（512 维） - 通过 Face Mapper 对齐维度 - 主要捕获面部特征信息

最终身份嵌入： $$c_{id} = \text{Concat}(M_{\text{clip}}(E_{\text{clip}}(FA(x))), M_{\text{face}}(E_{\text{face}}(FA(x))))$$

其中 $FA(\cdot)$ 为人脸对齐模块。

3. 混合注意力机制（推理阶段的核心）¶

推理时需要同时利用身份信息和文本语义。混合注意力在 self-attention 层实现融合：

\[\text{Attn}_{\text{mix}}(Q, K, V) = \text{Attn}(Q, \hat{K}, \hat{V})\]

其中： $$\hat{K} = \text{Concat}(K_{id}, K_t), \quad \hat{V} = \text{Concat}(V_{id}, V_t)$$

$K_{id}, V_{id}$：来自身份流（由图像交叉注意力模块生成的空间特征投影）
$K_t, V_t$：来自文本流（原始 SDXL 仅用文本 prompt 去噪得到的 self-attention 特征）

这种设计使身份特征在 attention 中与语义特征自然竞争和融合，不同分辨率层自动平衡两路信息。

4. 交叉注意力合并¶

在 cross-attention 层进一步强化语义控制：

\[\text{Attn}_{\text{cross}} = \text{Attn}(Q, K'_{id}, V'_{id}) + \text{Attn}(Q, K'_t, V'_t)\]

图像交叉注意力和文本交叉注意力的输出直接相加，保留两路信息。

5. AdaIN-mean 风格融合¶

为了实现风格控制（如动漫风格、素描风格），引入自适应均值归一化操作：

\[\text{AdaIN-m}(x, y) = x - \mu(x) + \mu(y)\]

其中 $\mu(x) \in \mathbb{R}^{d_k}$ 是特征跨像素的均值。

应用于 mixed attention 和 cross-attention 中的 ID 特征：

\[K_{id} = \text{AdaIN-m}(K_{id}, K_t), \quad V_{id} = \text{AdaIN-m}(V_{id}, V_t)\]

为什么用 AdaIN-mean 而非完整 AdaIN？ 完整 AdaIN 同时对齐均值和方差，会改变 ID 特征的分布范围从而降低身份保真度。仅对齐均值保留了 ID 特征的内在分布结构。

损失函数 / 训练策略¶

训练配置： - 基础模型：SDXL - 图像编码器：OpenCLIP ViT-H/14 + ArcFace - 在 SDXL 的 70 个 cross-attention 层中各附加一个图像 cross-attention 模块 - 16 × A100 GPU，batch size = 4/GPU，共训练 100 万步 - AdamW 优化器，lr=1e-4，weight decay=0.01 - 推理：DDIM Sampler，30 步，guidance scale=5.0 - 训练数据：LAION-2B + LAION-Face + 互联网图像

实验关键数据¶

主实验¶

与 tuning-free 方法的定量对比：

方法	CLIP-T ↑	CLIP-I ↑	$M_{\text{FaceNet}}$ ↑
FastComposer	0.292	0.887	0.556
IP-Adapter	0.274	0.905	0.474
IP-Adapter-Face	0.313	0.919	0.513
PhotoMaker	0.343	0.814	0.502
Infinite-ID	0.340	0.913	0.689

关键观察： - Infinite-ID 在 FaceNet 身份相似度上大幅领先（0.689 vs 第二名 0.556），提升 23.9% - CLIP-T 与 PhotoMaker 持平（0.340 vs 0.343），语义一致性不受影响 - CLIP-I 为 0.913，接近 IP-Adapter-Face 的 0.919，但 FaceNet 得分远超

消融实验¶

各组件的贡献：

变体	CLIP-T ↑	CLIP-I ↑	$M_{\text{FaceNet}}$ ↑
Infinite-ID（完整）	0.340	0.913	0.689
w/o 身份增强训练	0.329	0.891	0.593
w/o 混合注意力	0.331	0.905	0.700
Mixed Attn → Mutual Attn	0.316	0.808	0.398

AdaIN-mean 消融：

变体	身份保真度	风格一致性
w/o AdaIN-mean	★★★★★	✗ 无法实现风格化
AdaIN-mean → AdaIN	★★★☆☆	✓ 可实现但 ID 保真降低
AdaIN-mean	★★★★☆	✓ 风格化 + 身份保持

关键发现¶

身份增强训练提升 FaceNet 16.2%（0.593→0.689）：验证了训练时用解耦策略排除文本干扰的有效性
混合注意力优于互相注意力（Mutual Attention）：Mutual Attention 导致 FaceNet 暴跌至 0.398，说明简单替换 key/value 会破坏身份信息
AdaIN-mean 是 AdaIN 的更优选择：仅对齐均值保留了 ID 嵌入的内在结构，完整 AdaIN 的方差对齐会扭曲身份特征
去掉混合注意力反而 FaceNet 更高（0.700）：说明混合注意力在提升语义一致性的同时有轻微的 ID 保真度代价，但总体权衡更优
风格化能力：IP-Adapter 在风格化提示下仍生成参考图片风格的图像，说明其文本-图像空间被扭曲；Infinite-ID 通过解耦训练避免了这一问题

亮点与洞察¶

训练时解耦、推理时融合的范式设计清晰且有效：通过停用文本 cross-attention 来训练图像分支，不仅让 ID 学习更纯粹，也给后续的融合设计留出了灵活空间
AdaIN-mean 的巧妙设计：通过仅对齐均值而非方差，在获得风格控制能力的同时最大限度保留了身份特征的分布形态
双特征互补：CLIP 捕获结构、ArcFace 捕获面部特征，两者拼接提供了全面的身份表示
训练规模充足：100 万步训练在 LAION 级别数据上确保了模型的泛化能力

局限与展望¶

不支持多人个性化：当前框架仅处理单一身份，无法同时保持多个不同身份
小脸伪影：当人脸仅占图像小部分区域时，可能产生伪影（继承自底层扩散模型的限制）
训练成本高：16 × A100 训练 100 万步，普通研究者难以复现
依赖人脸对齐：需要检测和对齐人脸后才能提取特征，对极端姿态或遮挡情况不够鲁棒
可探索将 ID-语义解耦范式推广到其他个性化场景（如物体、宠物等）

评分¶

创新性: ★★★★☆ — 解耦训练+混合注意力融合的范式设计新颖有效
实验充分度: ★★★★★ — 定量对比、消融、原始照片+风格化照片生成覆盖全面
写作质量: ★★★★☆ — 方法描述清晰，图示丰富
实用价值: ★★★★☆ — 商业级身份保持生成，但训练成本是门槛