Infinite-ID: Identity-Preserved Personalization via ID-Semantics Decoupling Paradigm¶
会议: ECCV 2024
arXiv: 2403.11781
代码: https://infinite-id.github.io/
领域: LLM/NLP
关键词: 身份保持个性化, 文生图, Stable Diffusion, ID-语义解耦, 混合注意力
一句话总结¶
提出 Infinite-ID,通过 ID-语义解耦范式将身份信息和文本语义信息分离训练,再通过混合注意力机制和 AdaIN-mean 操作在推理时融合,实现高保真身份保持与精确语义控制的平衡。
研究背景与动机¶
- 身份与语义的纠缠困境: 现有 tuning-free 方法在 ID 保真度和文本语义一致性之间存在严重权衡
- PhotoMaker: 在 text embedding 空间融合 ID 信息 → 语义一致性好但 ID 被压缩
- IP-Adapter: 在 U-Net 中注入 ID 信息 → ID 保真好但训练偏向图像分支,弱化文本分支
- 核心诉求: 用单张参考图像,在不同场景、动作和风格下生成保持目标身份的高质量图像
方法详解¶
整体框架¶
训练阶段(ID-语义解耦): - 不使用文本 prompt,关闭原始 U-Net 的文本交叉注意力模块 - 使用同一人的不同视角/表情图像构成训练对 - 通过 Face Recognition 骨干和 CLIP 图像编码器提取身份嵌入 - 仅优化 face mapper, CLIP mapper 和图像交叉注意力模块
推理阶段: - 恢复文本交叉注意力 - 通过混合注意力机制融合 ID 信息和文本语义
关键设计¶
-
Face Embeddings Extractor:
- CLIP 图像编码器: 提取 N=257 个 local embeddings,经 CLIP mapper 对齐到 UNet 维度 → 捕获结构信息
- 人脸识别骨干 (ArcFace): 提取全局 512 维嵌入,经 face mapper 对齐 → 捕获面部特征
-
Mixed Attention:
- 将 ID 分支的 self-attention Key/Value 与文本分支的 Key/Value 拼接
- 用 ID 分支的 Query 对拼接后的 Key/Value 做注意力:\(\text{Attn}(Q, [K_{id}; K_t], [V_{id}; V_t])\)
- 这种方式在自注意力层实现了 ID 和语义的细粒度融合
-
AdaIN-mean 操作:
- 对 ID 分支特征做均值对齐: \(\text{AdaIN-m}(x, y) = x - \mu(x) + \mu(y)\)
- 仅对齐均值而非方差,保留 ID 信息的同时匹配文本语义的风格分布
- 比完整 AdaIN 保持更好的 ID 保真度
损失函数 / 训练策略¶
\[L_{diffusion} = E_{z_t, t, c_{id}, \epsilon}[||\epsilon - \epsilon_\theta(z_t, t, c_{id})||_2^2]\]
- 仅用 ID 嵌入 \(c_{id}\) 作为条件,不使用文本条件
- AdamW 优化器, lr=1e-4, weight decay=0.01
- 16 A100 GPU, 100万步训练, batch size=4/GPU
- 推理: DDIM 30步, guidance scale=5.0
实验关键数据¶
主实验¶
| 方法 | CLIP-T↑ | CLIP-I↑ | M_FaceNet↑ |
|---|---|---|---|
| FastComposer | 0.292 | 0.887 | 0.556 |
| IP-Adapter | 0.274 | 0.905 | 0.474 |
| IP-Adapter-Face | 0.313 | 0.919 | 0.513 |
| PhotoMaker | 0.343 | 0.814 | 0.502 |
| Infinite-ID | 0.340 | 0.913 | 0.689 |
消融实验¶
| 方法 | CLIP-T↑ | CLIP-I↑ | M_FaceNet↑ |
|---|---|---|---|
| w/o identity-enhanced training | 0.329 | 0.891 | 0.593 |
| w/o Mixed Attention | 0.331 | 0.905 | 0.700 |
| Mixed → Mutual Attention | 0.316 | 0.808 | 0.398 |
| Infinite-ID (完整) | 0.340 | 0.913 | 0.689 |
关键发现¶
- Infinite-ID 在 M_FaceNet 上显著领先(0.689 vs 第二 0.556),同时 CLIP-T 与最佳方法持平
- Identity-enhanced training 对 ID 保真度贡献最大(+0.096 M_FaceNet)
- Mixed Attention 优于 Mutual Attention,后者导致所有指标崩溃
- AdaIN-mean 相比完整 AdaIN 更好保持 ID 保真度
- 基于 SDXL 构建,推理秒级完成
亮点与洞察¶
- 解耦思路的优雅: 训练时完全关闭文本交叉注意力,让 ID 信息不受文本干扰地充分学习,推理时再优雅地融合
- Mixed vs Mutual Attention: 清晰展示了特征拼接(mixed)优于特征替换(mutual)的原因
- Style 控制: AdaIN-mean 操作使模型可以用文本 prompt 控制生成风格(动漫、漫画、线描等),同时保持身份
- Identity Mixing: 可通过堆叠多个身份嵌入实现身份混合,支持线性插值
局限性 / 可改进方向¶
- 不支持多对象个性化(仅针对人脸)
- 当人脸占图像比例较小时可能产生伪影
- 训练数据需要每个人有多张不同视角/表情的照片
- 目前基于 SDXL, 对 SD3 等新架构的兼容性未验证
- 缺乏与 InstantID 等更新方法的比较
相关工作与启发¶
- 与 PhotoMaker(文本空间融合)和 IP-Adapter(U-Net 空间融合)形成三种不同的融合范式
- 训练时解耦+推理时融合的思路可推广到其他需要平衡多个目标的生成任务
- Mixed Attention 的设计启发了如何在扩散模型中融合异构信息
评分¶
- 新颖性: ⭐⭐⭐⭐ — ID-语义解耦范式直击现有方法痛点
- 技术深度: ⭐⭐⭐⭐ — 混合注意力和 AdaIN-mean 设计有讲究
- 实验质量: ⭐⭐⭐⭐ — 定量+定性全面,含风格生成和消融
- 实用性: ⭐⭐⭐⭐ — 单图输入、秒级推理,有实际部署价值
- 综合推荐: ⭐⭐⭐⭐
相关论文¶
- [ECCV 2024] LCM-Lookahead for Encoder-based Text-to-Image Personalization
- [ECCV 2024] MagicEraser: Erasing Any Objects via Semantics-Aware Control
- [ECCV 2024] Unveiling Advanced Frequency Disentanglement Paradigm for Low-Light Image Enhancement
- [ECCV 2024] DiffiT: Diffusion Vision Transformers for Image Generation
- [ECCV 2024] SMooDi: Stylized Motion Diffusion Model