跳转至

Infinite-ID: Identity-Preserved Personalization via ID-Semantics Decoupling Paradigm

会议: ECCV 2024
arXiv: 2403.11781
代码: https://infinite-id.github.io/
领域: LLM/NLP
关键词: 身份保持个性化, 文生图, Stable Diffusion, ID-语义解耦, 混合注意力

一句话总结

提出 Infinite-ID,通过 ID-语义解耦范式将身份信息和文本语义信息分离训练,再通过混合注意力机制和 AdaIN-mean 操作在推理时融合,实现高保真身份保持与精确语义控制的平衡。

研究背景与动机

  • 身份与语义的纠缠困境: 现有 tuning-free 方法在 ID 保真度和文本语义一致性之间存在严重权衡
    • PhotoMaker: 在 text embedding 空间融合 ID 信息 → 语义一致性好但 ID 被压缩
    • IP-Adapter: 在 U-Net 中注入 ID 信息 → ID 保真好但训练偏向图像分支,弱化文本分支
  • 核心诉求: 用单张参考图像,在不同场景、动作和风格下生成保持目标身份的高质量图像

方法详解

整体框架

训练阶段(ID-语义解耦): - 不使用文本 prompt,关闭原始 U-Net 的文本交叉注意力模块 - 使用同一人的不同视角/表情图像构成训练对 - 通过 Face Recognition 骨干和 CLIP 图像编码器提取身份嵌入 - 仅优化 face mapper, CLIP mapper 和图像交叉注意力模块

推理阶段: - 恢复文本交叉注意力 - 通过混合注意力机制融合 ID 信息和文本语义

关键设计

  1. Face Embeddings Extractor:

    • CLIP 图像编码器: 提取 N=257 个 local embeddings,经 CLIP mapper 对齐到 UNet 维度 → 捕获结构信息
    • 人脸识别骨干 (ArcFace): 提取全局 512 维嵌入,经 face mapper 对齐 → 捕获面部特征
  2. Mixed Attention:

    • 将 ID 分支的 self-attention Key/Value 与文本分支的 Key/Value 拼接
    • 用 ID 分支的 Query 对拼接后的 Key/Value 做注意力:\(\text{Attn}(Q, [K_{id}; K_t], [V_{id}; V_t])\)
    • 这种方式在自注意力层实现了 ID 和语义的细粒度融合
  3. AdaIN-mean 操作:

    • 对 ID 分支特征做均值对齐: \(\text{AdaIN-m}(x, y) = x - \mu(x) + \mu(y)\)
    • 仅对齐均值而非方差,保留 ID 信息的同时匹配文本语义的风格分布
    • 比完整 AdaIN 保持更好的 ID 保真度

损失函数 / 训练策略

\[L_{diffusion} = E_{z_t, t, c_{id}, \epsilon}[||\epsilon - \epsilon_\theta(z_t, t, c_{id})||_2^2]\]
  • 仅用 ID 嵌入 \(c_{id}\) 作为条件,不使用文本条件
  • AdamW 优化器, lr=1e-4, weight decay=0.01
  • 16 A100 GPU, 100万步训练, batch size=4/GPU
  • 推理: DDIM 30步, guidance scale=5.0

实验关键数据

主实验

方法 CLIP-T↑ CLIP-I↑ M_FaceNet↑
FastComposer 0.292 0.887 0.556
IP-Adapter 0.274 0.905 0.474
IP-Adapter-Face 0.313 0.919 0.513
PhotoMaker 0.343 0.814 0.502
Infinite-ID 0.340 0.913 0.689

消融实验

方法 CLIP-T↑ CLIP-I↑ M_FaceNet↑
w/o identity-enhanced training 0.329 0.891 0.593
w/o Mixed Attention 0.331 0.905 0.700
Mixed → Mutual Attention 0.316 0.808 0.398
Infinite-ID (完整) 0.340 0.913 0.689

关键发现

  • Infinite-ID 在 M_FaceNet 上显著领先(0.689 vs 第二 0.556),同时 CLIP-T 与最佳方法持平
  • Identity-enhanced training 对 ID 保真度贡献最大(+0.096 M_FaceNet)
  • Mixed Attention 优于 Mutual Attention,后者导致所有指标崩溃
  • AdaIN-mean 相比完整 AdaIN 更好保持 ID 保真度
  • 基于 SDXL 构建,推理秒级完成

亮点与洞察

  1. 解耦思路的优雅: 训练时完全关闭文本交叉注意力,让 ID 信息不受文本干扰地充分学习,推理时再优雅地融合
  2. Mixed vs Mutual Attention: 清晰展示了特征拼接(mixed)优于特征替换(mutual)的原因
  3. Style 控制: AdaIN-mean 操作使模型可以用文本 prompt 控制生成风格(动漫、漫画、线描等),同时保持身份
  4. Identity Mixing: 可通过堆叠多个身份嵌入实现身份混合,支持线性插值

局限性 / 可改进方向

  • 不支持多对象个性化(仅针对人脸)
  • 当人脸占图像比例较小时可能产生伪影
  • 训练数据需要每个人有多张不同视角/表情的照片
  • 目前基于 SDXL, 对 SD3 等新架构的兼容性未验证
  • 缺乏与 InstantID 等更新方法的比较

相关工作与启发

  • 与 PhotoMaker(文本空间融合)和 IP-Adapter(U-Net 空间融合)形成三种不同的融合范式
  • 训练时解耦+推理时融合的思路可推广到其他需要平衡多个目标的生成任务
  • Mixed Attention 的设计启发了如何在扩散模型中融合异构信息

评分

  • 新颖性: ⭐⭐⭐⭐ — ID-语义解耦范式直击现有方法痛点
  • 技术深度: ⭐⭐⭐⭐ — 混合注意力和 AdaIN-mean 设计有讲究
  • 实验质量: ⭐⭐⭐⭐ — 定量+定性全面,含风格生成和消融
  • 实用性: ⭐⭐⭐⭐ — 单图输入、秒级推理,有实际部署价值
  • 综合推荐: ⭐⭐⭐⭐

相关论文