跳转至

Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm

会议: ECCV 2024
arXiv: 2403.11781
代码: 项目主页 (有)
领域: 图像生成
关键词: 身份保持生成, 个性化文生图, 风格控制, 注意力机制, SDXL

一句话总结

提出 Infinite-ID,通过 ID-语义解耦范式将身份信息和文本语义信息分离处理——训练阶段停用文本交叉注意力以专注学习身份嵌入,推理阶段通过混合注意力机制和 AdaIN-mean 操作融合两路信息,在单张参考图下同时实现高保真身份保持和语义一致性。

研究背景与动机

身份保持的个性化文生图(Identity-preserved Personalization)旨在根据一张或多张参考照片,生成保持特定人脸身份的新图像(新场景、新动作、新风格)。这在 AI 肖像、虚拟试穿等商业应用中需求巨大。

核心矛盾:ID 保真度(identity fidelity)与语义一致性(semantic consistency)之间存在严重权衡,根源在于图像信息和文本信息的纠缠。

现有 tuning-free 方法的两种典型思路:

方法类型 代表方法 融合方式 优势 缺陷
文本空间融合 PhotoMaker 在文本编码器空间合并 ID 信息 语义一致性好 图像特征被压缩,身份保真度低
U-Net 空间融合 IP-Adapter 额外 cross-attention 注入 ID 信息 ID 信息更强 训练时偏向图像分支,语义一致性差

两种方式都将图像和文本信息纠缠在一起。Infinite-ID 的核心思想是:训练时彻底解耦 ID 和语义,推理时再通过精心设计的机制重新融合。

方法详解

整体框架

Infinite-ID 基于 SDXL 构建,包含三个关键组件:

  1. 身份增强训练(Identity-enhanced Training):训练阶段完全解耦 ID 和文本
  2. 混合注意力机制(Mixed Attention):推理阶段融合 ID 和语义信息
  3. AdaIN-mean 操作:推理阶段控制生成图像的风格

关键设计

1. 身份增强训练(训练阶段的核心)

与常规方法使用文本-图像对训练不同,Infinite-ID 采用全新策略:

  • 排除文本 prompt 输入,停用 U-Net 中原始文本交叉注意力模块
  • 训练对由同一个人不同照片构成(不同视角、表情),促进更全面的身份学习
  • 仅训练 Face Mapper、CLIP Mapper 和图像交叉注意力模块,扩散模型参数冻结

这样做的核心好处:图像分支在训练时不会受到文本信号的干扰,能完全忠实地学习如何表示参考图像的身份信息。

训练损失简化为纯身份条件的扩散损失:

\[L_{\text{diffusion}} = E_{z_t, t, c_{id}, \epsilon}\left[\|\epsilon - \epsilon_\theta(z_t, t, c_{id})\|_2^2\right]\]

2. 面部嵌入提取器(Face Embeddings Extractor)

采用双特征提取策略,互补捕获身份信息:

(a) CLIP 图像编码器: - 使用 OpenCLIP ViT-H/14 - 提取 last hidden states(\(N=257\) 个 token 的序列嵌入) - 通过 CLIP Mapper 投影到扩散模型的特征维度 - 主要捕获面部的结构信息

(b) 人脸识别骨干网络: - 使用 ArcFace 骨干 - 提取全局图像嵌入(512 维) - 通过 Face Mapper 对齐维度 - 主要捕获面部特征信息

最终身份嵌入: $\(c_{id} = \text{Concat}(M_{\text{clip}}(E_{\text{clip}}(FA(x))), M_{\text{face}}(E_{\text{face}}(FA(x))))\)$

其中 \(FA(\cdot)\) 为人脸对齐模块。

3. 混合注意力机制(推理阶段的核心)

推理时需要同时利用身份信息和文本语义。混合注意力在 self-attention 层实现融合:

\[\text{Attn}_{\text{mix}}(Q, K, V) = \text{Attn}(Q, \hat{K}, \hat{V})\]

其中: $\(\hat{K} = \text{Concat}(K_{id}, K_t), \quad \hat{V} = \text{Concat}(V_{id}, V_t)\)$

  • \(K_{id}, V_{id}\):来自身份流(由图像交叉注意力模块生成的空间特征投影)
  • \(K_t, V_t\):来自文本流(原始 SDXL 仅用文本 prompt 去噪得到的 self-attention 特征)

这种设计使身份特征在 attention 中与语义特征自然竞争和融合,不同分辨率层自动平衡两路信息。

4. 交叉注意力合并

在 cross-attention 层进一步强化语义控制:

\[\text{Attn}_{\text{cross}} = \text{Attn}(Q, K'_{id}, V'_{id}) + \text{Attn}(Q, K'_t, V'_t)\]

图像交叉注意力和文本交叉注意力的输出直接相加,保留两路信息。

5. AdaIN-mean 风格融合

为了实现风格控制(如动漫风格、素描风格),引入自适应均值归一化操作:

\[\text{AdaIN-m}(x, y) = x - \mu(x) + \mu(y)\]

其中 \(\mu(x) \in \mathbb{R}^{d_k}\) 是特征跨像素的均值。

应用于 mixed attention 和 cross-attention 中的 ID 特征:

\[K_{id} = \text{AdaIN-m}(K_{id}, K_t), \quad V_{id} = \text{AdaIN-m}(V_{id}, V_t)\]

为什么用 AdaIN-mean 而非完整 AdaIN? 完整 AdaIN 同时对齐均值和方差,会改变 ID 特征的分布范围从而降低身份保真度。仅对齐均值保留了 ID 特征的内在分布结构。

损失函数 / 训练策略

训练配置: - 基础模型:SDXL - 图像编码器:OpenCLIP ViT-H/14 + ArcFace - 在 SDXL 的 70 个 cross-attention 层中各附加一个图像 cross-attention 模块 - 16 × A100 GPU,batch size = 4/GPU,共训练 100 万步 - AdamW 优化器,lr=1e-4,weight decay=0.01 - 推理:DDIM Sampler,30 步,guidance scale=5.0 - 训练数据:LAION-2B + LAION-Face + 互联网图像

实验关键数据

主实验

与 tuning-free 方法的定量对比:

方法 CLIP-T ↑ CLIP-I ↑ \(M_{\text{FaceNet}}\)
FastComposer 0.292 0.887 0.556
IP-Adapter 0.274 0.905 0.474
IP-Adapter-Face 0.313 0.919 0.513
PhotoMaker 0.343 0.814 0.502
Infinite-ID 0.340 0.913 0.689

关键观察: - Infinite-ID 在 FaceNet 身份相似度上大幅领先(0.689 vs 第二名 0.556),提升 23.9% - CLIP-T 与 PhotoMaker 持平(0.340 vs 0.343),语义一致性不受影响 - CLIP-I 为 0.913,接近 IP-Adapter-Face 的 0.919,但 FaceNet 得分远超

消融实验

各组件的贡献:

变体 CLIP-T ↑ CLIP-I ↑ \(M_{\text{FaceNet}}\)
Infinite-ID(完整) 0.340 0.913 0.689
w/o 身份增强训练 0.329 0.891 0.593
w/o 混合注意力 0.331 0.905 0.700
Mixed Attn → Mutual Attn 0.316 0.808 0.398

AdaIN-mean 消融:

变体 身份保真度 风格一致性
w/o AdaIN-mean ★★★★★ ✗ 无法实现风格化
AdaIN-mean → AdaIN ★★★☆☆ ✓ 可实现但 ID 保真降低
AdaIN-mean ★★★★☆ ✓ 风格化 + 身份保持

关键发现

  1. 身份增强训练提升 FaceNet 16.2%(0.593→0.689):验证了训练时用解耦策略排除文本干扰的有效性
  2. 混合注意力优于互相注意力(Mutual Attention):Mutual Attention 导致 FaceNet 暴跌至 0.398,说明简单替换 key/value 会破坏身份信息
  3. AdaIN-mean 是 AdaIN 的更优选择:仅对齐均值保留了 ID 嵌入的内在结构,完整 AdaIN 的方差对齐会扭曲身份特征
  4. 去掉混合注意力反而 FaceNet 更高(0.700):说明混合注意力在提升语义一致性的同时有轻微的 ID 保真度代价,但总体权衡更优
  5. 风格化能力:IP-Adapter 在风格化提示下仍生成参考图片风格的图像,说明其文本-图像空间被扭曲;Infinite-ID 通过解耦训练避免了这一问题

亮点与洞察

  1. 训练时解耦、推理时融合的范式设计清晰且有效:通过停用文本 cross-attention 来训练图像分支,不仅让 ID 学习更纯粹,也给后续的融合设计留出了灵活空间
  2. AdaIN-mean 的巧妙设计:通过仅对齐均值而非方差,在获得风格控制能力的同时最大限度保留了身份特征的分布形态
  3. 双特征互补:CLIP 捕获结构、ArcFace 捕获面部特征,两者拼接提供了全面的身份表示
  4. 训练规模充足:100 万步训练在 LAION 级别数据上确保了模型的泛化能力

局限与展望

  1. 不支持多人个性化:当前框架仅处理单一身份,无法同时保持多个不同身份
  2. 小脸伪影:当人脸仅占图像小部分区域时,可能产生伪影(继承自底层扩散模型的限制)
  3. 训练成本高:16 × A100 训练 100 万步,普通研究者难以复现
  4. 依赖人脸对齐:需要检测和对齐人脸后才能提取特征,对极端姿态或遮挡情况不够鲁棒
  5. 可探索将 ID-语义解耦范式推广到其他个性化场景(如物体、宠物等)

相关工作与启发

  • PhotoMaker:在文本空间融合 ID 嵌入,语义一致性好但 ID 保真度不足
  • IP-Adapter / IP-Adapter-Face:在 U-Net 中注入 ID 信息,ID 较强但语义被扰乱
  • MasaCtrl:提出 Mutual Self-Attention 用于一致性编辑,Infinite-ID 证明了 Mixed Attention 在此场景更优
  • StyleAligned:使用 AdaIN + attention 共享实现风格对齐,启发了 AdaIN-mean 的设计
  • 启发:训练时的解耦策略可能对其他多条件生成任务也有参考价值

评分

  • 创新性: ★★★★☆ — 解耦训练+混合注意力融合的范式设计新颖有效
  • 实验充分度: ★★★★★ — 定量对比、消融、原始照片+风格化照片生成覆盖全面
  • 写作质量: ★★★★☆ — 方法描述清晰,图示丰富
  • 实用价值: ★★★★☆ — 商业级身份保持生成,但训练成本是门槛

相关论文