跳转至

Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge

会议: NeurIPS 2025
arXiv: 2411.15277
代码: 项目页
领域: 自监督学习 / 面部个性化生成
关键词: 面部个性化, 扩散模型, prompt一致性, 训练免费, 自注意力

一句话总结

FreeCure发现面部个性化模型的身份嵌入会覆盖但不破坏基础模型的prompt控制能力,据此提出无训练框架,通过Foundation-Aware Self-Attention(FASA)将基础模型的属性信息注入个性化生成过程,在保持身份保真度的同时大幅提升prompt一致性,可无缝集成到SD/SDXL/FLUX等主流模型。

研究背景与动机

领域现状 面部个性化模型(FastComposer、PhotoMaker、PuLID、InfiniteYou等)通过身份嵌入融入交叉注意力层来生成保持身份的图像,但身份保真度和prompt一致性的平衡始终是核心挑战。

现有痛点 身份嵌入在交叉注意力中占据主导地位,"覆盖"了其他属性token(如发色、表情、配饰)的正常表达,导致生成结果无法准确反映prompt中指定的面部属性。

核心矛盾 身份嵌入对身份保持不可或缺,但它恰恰是prompt一致性下降的根源。直接修改交叉注意力会破坏身份提取能力。

本文目标 在不修改个性化模型的交叉注意力模块(保持身份能力)的前提下,恢复被身份嵌入压制的面部属性控制能力。

切入角度 发现个性化模型在去掉身份嵌入后可恢复基础模型的高prompt一致性——这说明基础知识被"覆盖"但未"破坏",可通过自注意力层来利用。

核心 idea 通过双推理范式提取基础模型的正确属性信息,利用FASA在自注意力层进行局部属性替换。

方法详解

整体框架

FreeCure使用双推理范式:PD(有身份嵌入)和FD(无身份嵌入/零张量替代)。PD保持身份但属性弱,FD属性准确但无身份。通过FASA模块在自注意力层将FD的正确属性注入PD,用分割掩码限制注入区域保护身份。

关键设计

  1. Foundation-Aware Self-Attention (FASA):

    • 功能:在自注意力层中融合PD和FD的信息
    • 核心思路:将FD的K/V拼接到PD的K/V后面:\(\hat{K} = [K_p, K_f], \hat{V} = [V_p, V_f]\),用PD的Q做注意力计算:\(\text{FASA} = \text{Softmax}(\frac{[\mathbf{1}, \omega\mathcal{M}] \odot Q_p\hat{K}^T}{\sqrt{d}})\hat{V}\),其中 \(\mathcal{M}\) 是属性掩码、\(\omega\) 是缩放因子
    • 设计动机:交叉注意力层高度敏感,微小修改即破坏身份;自注意力层保留了基础模型知识,是安全的干预点
  2. 属性掩码的精细控制:

    • 功能:限制属性注入仅在目标面部区域发生
    • 核心思路:用面部解析模型(BiSeNet/SAM)从FD结果中提取目标属性(发型、配饰、眼色等)的二值掩码 \(M_i\),合并为 \(\mathcal{M} = \bigcup\{M_i\}\)。掩码确保FASA仅在属性区域注入FD信息,非属性区域的身份信息不受干扰
    • 设计动机:不加掩码时FASA会引入大量无关FD特征,严重损害身份保真度
  3. 非对称Prompt引导(APG):

    • 功能:恢复抽象属性(如表情)
    • 核心思路:对FASA处理后的图像做DDIM反转(使用不含属性的模板prompt),然后从中间时间步用包含完整属性的prompt去噪。从 \(\hat{z_{\gamma T}}\) 开始去噪(\(\gamma=0.5\)),保留高层身份信息
    • 设计动机:FASA基于空间掩码,适合有明确位置的属性(发型、眼镜);表情等全局属性没有清晰空间边界,需要不同策略

FLUX适配

在FLUX的full-attention DiT中,FASA掩码仅应用于PD视觉query-FD视觉key的交互部分,保留原始跨模态注意力模式。

实验关键数据

主实验——Prompt一致性(PC)和身份保真度(IF)

方法 PC% ↑ IF% ↑ PC×IF(hMean) ↑
InstantID 21.89 63.94 32.61
+ FreeCure 23.62 (+7.9%) 62.01 (-3.0%) 34.21 (+4.9%)
PuLID (FLUX) 22.42 74.97 34.52
+ FreeCure 24.78 (+10.5%) 72.61 (-3.2%) 36.95 (+7.0%)
InfiniteYou 23.77 79.71 36.62
+ FreeCure 25.25 (+6.2%) 77.13 (-3.2%) 38.05 (+3.9%)

多属性prompt性能

属性数 基线PC(SDv1.5) +FreeCure
1个属性 21.01 22.70 (+8.0%)
2个属性 20.34 22.34 (+9.9%)
3个属性 18.49 20.49 (+10.8%)

消融实验

配置 效果 说明
无掩码FASA 身份严重丢失 FD特征全面覆盖PD
有掩码FASA PC↑ IF仅微降 精准注入目标属性
FASA + APG 最优 空间+抽象属性都恢复
交叉注意力插值 身份快速丢失 验证交叉注意力不可修改

关键发现

  • FreeCure在所有8个基线模型上均提升PC×IF综合指标
  • 属性越多,FreeCure的改善越显著(从8%增到10.8%),说明在复杂场景中更有价值
  • IF下降控制在3%左右,主要因为面部多样性的正向提升

亮点与洞察

  • "身份嵌入覆盖而非破坏基础知识"这一发现为个性化领域提供了新的理解视角
  • FASA设计巧妙:通过K/V拼接+掩码实现精准的局部属性注入,不触碰敏感的交叉注意力
  • 跨SD/SDXL/FLUX三代基础模型的通用性证明了方法的架构无关性

局限与展望

  • 需要额外运行面部解析模型提取掩码,增加推理时间
  • 双推理范式使推理成本翻倍
  • 对极细粒度属性(如瞳色、耳环形状)的控制仍有提升空间

相关工作与启发

  • vs PhotoSwap/MasaCtrl: 利用自注意力进行编辑但面向通用对象,FreeCure专门面向面部个性化
  • vs InstantID/PuLID: 这些是FreeCure增强的基线方法,FreeCure作为"插件"使用
  • vs ControlNet: ControlNet用额外条件控制生成,FreeCure利用模型内在知识,无需额外训练

评分

  • 新颖性: ⭐⭐⭐⭐ 发现"基础知识被覆盖未破坏"的洞察有原创性,FASA设计优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 8个基线方法、3代基础模型、50身份×20prompt的大规模评估
  • 写作质量: ⭐⭐⭐⭐ 分析深入直观,可视化丰富
  • 价值: ⭐⭐⭐⭐ 无训练即插即用,对面部个性化应用有直接价值

相关论文