Infinite-ID: Identity-Preserved Personalization via ID-Semantics Decoupling Paradigm¶

会议: ECCV 2024
arXiv: 2403.11781
代码: https://infinite-id.github.io/
领域: LLM/NLP
关键词: 身份保持个性化, 文生图, Stable Diffusion, ID-语义解耦, 混合注意力

一句话总结¶

提出 Infinite-ID，通过 ID-语义解耦范式将身份信息和文本语义信息分离训练，再通过混合注意力机制和 AdaIN-mean 操作在推理时融合，实现高保真身份保持与精确语义控制的平衡。

研究背景与动机¶

身份与语义的纠缠困境: 现有 tuning-free 方法在 ID 保真度和文本语义一致性之间存在严重权衡
- PhotoMaker: 在 text embedding 空间融合 ID 信息 → 语义一致性好但 ID 被压缩
- IP-Adapter: 在 U-Net 中注入 ID 信息 → ID 保真好但训练偏向图像分支，弱化文本分支
核心诉求: 用单张参考图像，在不同场景、动作和风格下生成保持目标身份的高质量图像

方法详解¶

整体框架¶

训练阶段（ID-语义解耦）: - 不使用文本 prompt，关闭原始 U-Net 的文本交叉注意力模块 - 使用同一人的不同视角/表情图像构成训练对 - 通过 Face Recognition 骨干和 CLIP 图像编码器提取身份嵌入 - 仅优化 face mapper, CLIP mapper 和图像交叉注意力模块

推理阶段: - 恢复文本交叉注意力 - 通过混合注意力机制融合 ID 信息和文本语义

关键设计¶

Face Embeddings Extractor:
- CLIP 图像编码器: 提取 N=257 个 local embeddings，经 CLIP mapper 对齐到 UNet 维度 → 捕获结构信息
- 人脸识别骨干 (ArcFace): 提取全局 512 维嵌入，经 face mapper 对齐 → 捕获面部特征
Mixed Attention:
- 将 ID 分支的 self-attention Key/Value 与文本分支的 Key/Value 拼接
- 用 ID 分支的 Query 对拼接后的 Key/Value 做注意力：\(\text{Attn}(Q, [K_{id}; K_t], [V_{id}; V_t])\)
- 这种方式在自注意力层实现了 ID 和语义的细粒度融合
AdaIN-mean 操作:
- 对 ID 分支特征做均值对齐: \(\text{AdaIN-m}(x, y) = x - \mu(x) + \mu(y)\)
- 仅对齐均值而非方差，保留 ID 信息的同时匹配文本语义的风格分布
- 比完整 AdaIN 保持更好的 ID 保真度

损失函数 / 训练策略¶

\[L_{diffusion} = E_{z_t, t, c_{id}, \epsilon}[||\epsilon - \epsilon_\theta(z_t, t, c_{id})||_2^2]\]

仅用 ID 嵌入 \(c_{id}\) 作为条件，不使用文本条件
AdamW 优化器, lr=1e-4, weight decay=0.01
16 A100 GPU, 100万步训练, batch size=4/GPU
推理: DDIM 30步, guidance scale=5.0

实验关键数据¶

主实验¶

方法	CLIP-T↑	CLIP-I↑	M_FaceNet↑
FastComposer	0.292	0.887	0.556
IP-Adapter	0.274	0.905	0.474
IP-Adapter-Face	0.313	0.919	0.513
PhotoMaker	0.343	0.814	0.502
Infinite-ID	0.340	0.913	0.689

消融实验¶

方法	CLIP-T↑	CLIP-I↑	M_FaceNet↑
w/o identity-enhanced training	0.329	0.891	0.593
w/o Mixed Attention	0.331	0.905	0.700
Mixed → Mutual Attention	0.316	0.808	0.398
Infinite-ID (完整)	0.340	0.913	0.689

关键发现¶

Infinite-ID 在 M_FaceNet 上显著领先（0.689 vs 第二 0.556），同时 CLIP-T 与最佳方法持平
Identity-enhanced training 对 ID 保真度贡献最大（+0.096 M_FaceNet）
Mixed Attention 优于 Mutual Attention，后者导致所有指标崩溃
AdaIN-mean 相比完整 AdaIN 更好保持 ID 保真度
基于 SDXL 构建，推理秒级完成

亮点与洞察¶

解耦思路的优雅: 训练时完全关闭文本交叉注意力，让 ID 信息不受文本干扰地充分学习，推理时再优雅地融合
Mixed vs Mutual Attention: 清晰展示了特征拼接（mixed）优于特征替换（mutual）的原因
Style 控制: AdaIN-mean 操作使模型可以用文本 prompt 控制生成风格（动漫、漫画、线描等），同时保持身份
Identity Mixing: 可通过堆叠多个身份嵌入实现身份混合，支持线性插值

局限性 / 可改进方向¶

不支持多对象个性化（仅针对人脸）
当人脸占图像比例较小时可能产生伪影
训练数据需要每个人有多张不同视角/表情的照片
目前基于 SDXL, 对 SD3 等新架构的兼容性未验证
缺乏与 InstantID 等更新方法的比较

评分¶

新颖性: ⭐⭐⭐⭐ — ID-语义解耦范式直击现有方法痛点
技术深度: ⭐⭐⭐⭐ — 混合注意力和 AdaIN-mean 设计有讲究
实验质量: ⭐⭐⭐⭐ — 定量+定性全面，含风格生成和消融
实用性: ⭐⭐⭐⭐ — 单图输入、秒级推理，有实际部署价值
综合推荐: ⭐⭐⭐⭐