Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm¶
会议: ECCV 2024
arXiv: 2403.11781
代码: 项目主页 (有)
领域: 图像生成
关键词: 身份保持生成, 个性化文生图, 风格控制, 注意力机制, SDXL
一句话总结¶
提出 Infinite-ID,通过 ID-语义解耦范式将身份信息和文本语义信息分离处理——训练阶段停用文本交叉注意力以专注学习身份嵌入,推理阶段通过混合注意力机制和 AdaIN-mean 操作融合两路信息,在单张参考图下同时实现高保真身份保持和语义一致性。
研究背景与动机¶
身份保持的个性化文生图(Identity-preserved Personalization)旨在根据一张或多张参考照片,生成保持特定人脸身份的新图像(新场景、新动作、新风格)。这在 AI 肖像、虚拟试穿等商业应用中需求巨大。
核心矛盾:ID 保真度(identity fidelity)与语义一致性(semantic consistency)之间存在严重权衡,根源在于图像信息和文本信息的纠缠。
现有 tuning-free 方法的两种典型思路:
| 方法类型 | 代表方法 | 融合方式 | 优势 | 缺陷 |
|---|---|---|---|---|
| 文本空间融合 | PhotoMaker | 在文本编码器空间合并 ID 信息 | 语义一致性好 | 图像特征被压缩,身份保真度低 |
| U-Net 空间融合 | IP-Adapter | 额外 cross-attention 注入 ID 信息 | ID 信息更强 | 训练时偏向图像分支,语义一致性差 |
两种方式都将图像和文本信息纠缠在一起。Infinite-ID 的核心思想是:训练时彻底解耦 ID 和语义,推理时再通过精心设计的机制重新融合。
方法详解¶
整体框架¶
Infinite-ID 基于 SDXL 构建,包含三个关键组件:
- 身份增强训练(Identity-enhanced Training):训练阶段完全解耦 ID 和文本
- 混合注意力机制(Mixed Attention):推理阶段融合 ID 和语义信息
- AdaIN-mean 操作:推理阶段控制生成图像的风格
关键设计¶
1. 身份增强训练(训练阶段的核心)¶
与常规方法使用文本-图像对训练不同,Infinite-ID 采用全新策略:
- 排除文本 prompt 输入,停用 U-Net 中原始文本交叉注意力模块
- 训练对由同一个人不同照片构成(不同视角、表情),促进更全面的身份学习
- 仅训练 Face Mapper、CLIP Mapper 和图像交叉注意力模块,扩散模型参数冻结
这样做的核心好处:图像分支在训练时不会受到文本信号的干扰,能完全忠实地学习如何表示参考图像的身份信息。
训练损失简化为纯身份条件的扩散损失:
2. 面部嵌入提取器(Face Embeddings Extractor)¶
采用双特征提取策略,互补捕获身份信息:
(a) CLIP 图像编码器: - 使用 OpenCLIP ViT-H/14 - 提取 last hidden states(\(N=257\) 个 token 的序列嵌入) - 通过 CLIP Mapper 投影到扩散模型的特征维度 - 主要捕获面部的结构信息
(b) 人脸识别骨干网络: - 使用 ArcFace 骨干 - 提取全局图像嵌入(512 维) - 通过 Face Mapper 对齐维度 - 主要捕获面部特征信息
最终身份嵌入: $\(c_{id} = \text{Concat}(M_{\text{clip}}(E_{\text{clip}}(FA(x))), M_{\text{face}}(E_{\text{face}}(FA(x))))\)$
其中 \(FA(\cdot)\) 为人脸对齐模块。
3. 混合注意力机制(推理阶段的核心)¶
推理时需要同时利用身份信息和文本语义。混合注意力在 self-attention 层实现融合:
其中: $\(\hat{K} = \text{Concat}(K_{id}, K_t), \quad \hat{V} = \text{Concat}(V_{id}, V_t)\)$
- \(K_{id}, V_{id}\):来自身份流(由图像交叉注意力模块生成的空间特征投影)
- \(K_t, V_t\):来自文本流(原始 SDXL 仅用文本 prompt 去噪得到的 self-attention 特征)
这种设计使身份特征在 attention 中与语义特征自然竞争和融合,不同分辨率层自动平衡两路信息。
4. 交叉注意力合并¶
在 cross-attention 层进一步强化语义控制:
图像交叉注意力和文本交叉注意力的输出直接相加,保留两路信息。
5. AdaIN-mean 风格融合¶
为了实现风格控制(如动漫风格、素描风格),引入自适应均值归一化操作:
其中 \(\mu(x) \in \mathbb{R}^{d_k}\) 是特征跨像素的均值。
应用于 mixed attention 和 cross-attention 中的 ID 特征:
为什么用 AdaIN-mean 而非完整 AdaIN? 完整 AdaIN 同时对齐均值和方差,会改变 ID 特征的分布范围从而降低身份保真度。仅对齐均值保留了 ID 特征的内在分布结构。
损失函数 / 训练策略¶
训练配置: - 基础模型:SDXL - 图像编码器:OpenCLIP ViT-H/14 + ArcFace - 在 SDXL 的 70 个 cross-attention 层中各附加一个图像 cross-attention 模块 - 16 × A100 GPU,batch size = 4/GPU,共训练 100 万步 - AdamW 优化器,lr=1e-4,weight decay=0.01 - 推理:DDIM Sampler,30 步,guidance scale=5.0 - 训练数据:LAION-2B + LAION-Face + 互联网图像
实验关键数据¶
主实验¶
与 tuning-free 方法的定量对比:
| 方法 | CLIP-T ↑ | CLIP-I ↑ | \(M_{\text{FaceNet}}\) ↑ |
|---|---|---|---|
| FastComposer | 0.292 | 0.887 | 0.556 |
| IP-Adapter | 0.274 | 0.905 | 0.474 |
| IP-Adapter-Face | 0.313 | 0.919 | 0.513 |
| PhotoMaker | 0.343 | 0.814 | 0.502 |
| Infinite-ID | 0.340 | 0.913 | 0.689 |
关键观察: - Infinite-ID 在 FaceNet 身份相似度上大幅领先(0.689 vs 第二名 0.556),提升 23.9% - CLIP-T 与 PhotoMaker 持平(0.340 vs 0.343),语义一致性不受影响 - CLIP-I 为 0.913,接近 IP-Adapter-Face 的 0.919,但 FaceNet 得分远超
消融实验¶
各组件的贡献:
| 变体 | CLIP-T ↑ | CLIP-I ↑ | \(M_{\text{FaceNet}}\) ↑ |
|---|---|---|---|
| Infinite-ID(完整) | 0.340 | 0.913 | 0.689 |
| w/o 身份增强训练 | 0.329 | 0.891 | 0.593 |
| w/o 混合注意力 | 0.331 | 0.905 | 0.700 |
| Mixed Attn → Mutual Attn | 0.316 | 0.808 | 0.398 |
AdaIN-mean 消融:
| 变体 | 身份保真度 | 风格一致性 |
|---|---|---|
| w/o AdaIN-mean | ★★★★★ | ✗ 无法实现风格化 |
| AdaIN-mean → AdaIN | ★★★☆☆ | ✓ 可实现但 ID 保真降低 |
| AdaIN-mean | ★★★★☆ | ✓ 风格化 + 身份保持 |
关键发现¶
- 身份增强训练提升 FaceNet 16.2%(0.593→0.689):验证了训练时用解耦策略排除文本干扰的有效性
- 混合注意力优于互相注意力(Mutual Attention):Mutual Attention 导致 FaceNet 暴跌至 0.398,说明简单替换 key/value 会破坏身份信息
- AdaIN-mean 是 AdaIN 的更优选择:仅对齐均值保留了 ID 嵌入的内在结构,完整 AdaIN 的方差对齐会扭曲身份特征
- 去掉混合注意力反而 FaceNet 更高(0.700):说明混合注意力在提升语义一致性的同时有轻微的 ID 保真度代价,但总体权衡更优
- 风格化能力:IP-Adapter 在风格化提示下仍生成参考图片风格的图像,说明其文本-图像空间被扭曲;Infinite-ID 通过解耦训练避免了这一问题
亮点与洞察¶
- 训练时解耦、推理时融合的范式设计清晰且有效:通过停用文本 cross-attention 来训练图像分支,不仅让 ID 学习更纯粹,也给后续的融合设计留出了灵活空间
- AdaIN-mean 的巧妙设计:通过仅对齐均值而非方差,在获得风格控制能力的同时最大限度保留了身份特征的分布形态
- 双特征互补:CLIP 捕获结构、ArcFace 捕获面部特征,两者拼接提供了全面的身份表示
- 训练规模充足:100 万步训练在 LAION 级别数据上确保了模型的泛化能力
局限与展望¶
- 不支持多人个性化:当前框架仅处理单一身份,无法同时保持多个不同身份
- 小脸伪影:当人脸仅占图像小部分区域时,可能产生伪影(继承自底层扩散模型的限制)
- 训练成本高:16 × A100 训练 100 万步,普通研究者难以复现
- 依赖人脸对齐:需要检测和对齐人脸后才能提取特征,对极端姿态或遮挡情况不够鲁棒
- 可探索将 ID-语义解耦范式推广到其他个性化场景(如物体、宠物等)
相关工作与启发¶
- PhotoMaker:在文本空间融合 ID 嵌入,语义一致性好但 ID 保真度不足
- IP-Adapter / IP-Adapter-Face:在 U-Net 中注入 ID 信息,ID 较强但语义被扰乱
- MasaCtrl:提出 Mutual Self-Attention 用于一致性编辑,Infinite-ID 证明了 Mixed Attention 在此场景更优
- StyleAligned:使用 AdaIN + attention 共享实现风格对齐,启发了 AdaIN-mean 的设计
- 启发:训练时的解耦策略可能对其他多条件生成任务也有参考价值
评分¶
- 创新性: ★★★★☆ — 解耦训练+混合注意力融合的范式设计新颖有效
- 实验充分度: ★★★★★ — 定量对比、消融、原始照片+风格化照片生成覆盖全面
- 写作质量: ★★★★☆ — 方法描述清晰,图示丰富
- 实用价值: ★★★★☆ — 商业级身份保持生成,但训练成本是门槛
相关论文¶
- [ECCV 2024] LCM-Lookahead for Encoder-based Text-to-Image Personalization
- [ECCV 2024] MagicEraser: Erasing Any Objects via Semantics-Aware Control
- [ECCV 2024] Unveiling Advanced Frequency Disentanglement Paradigm for Low-Light Image Enhancement
- [ECCV 2024] Learning Trimodal Relation for Audio-Visual Question Answering with Missing Modality
- [ECCV 2024] ShapeFusion: A 3D Diffusion Model for Localized Shape Editing