Foundation Cures Personalization: Improving Personalized Models' Prompt Consistency via Hidden Foundation Knowledge¶

会议: NeurIPS 2025
arXiv: 2411.15277
代码: 项目页
领域: 自监督学习 / 面部个性化生成
关键词: 面部个性化, 扩散模型, prompt一致性, 训练免费, 自注意力

一句话总结¶

FreeCure发现面部个性化模型的身份嵌入会覆盖但不破坏基础模型的prompt控制能力，据此提出无训练框架，通过Foundation-Aware Self-Attention（FASA）将基础模型的属性信息注入个性化生成过程，在保持身份保真度的同时大幅提升prompt一致性，可无缝集成到SD/SDXL/FLUX等主流模型。

研究背景与动机¶

领域现状 面部个性化模型（FastComposer、PhotoMaker、PuLID、InfiniteYou等）通过身份嵌入融入交叉注意力层来生成保持身份的图像，但身份保真度和prompt一致性的平衡始终是核心挑战。

现有痛点 身份嵌入在交叉注意力中占据主导地位，"覆盖"了其他属性token（如发色、表情、配饰）的正常表达，导致生成结果无法准确反映prompt中指定的面部属性。

核心矛盾 身份嵌入对身份保持不可或缺，但它恰恰是prompt一致性下降的根源。直接修改交叉注意力会破坏身份提取能力。

本文目标 在不修改个性化模型的交叉注意力模块（保持身份能力）的前提下，恢复被身份嵌入压制的面部属性控制能力。

切入角度 发现个性化模型在去掉身份嵌入后可恢复基础模型的高prompt一致性——这说明基础知识被"覆盖"但未"破坏"，可通过自注意力层来利用。

核心 idea 通过双推理范式提取基础模型的正确属性信息，利用FASA在自注意力层进行局部属性替换。

方法详解¶

整体框架¶

FreeCure使用双推理范式：PD（有身份嵌入）和FD（无身份嵌入/零张量替代）。PD保持身份但属性弱，FD属性准确但无身份。通过FASA模块在自注意力层将FD的正确属性注入PD，用分割掩码限制注入区域保护身份。

关键设计¶

Foundation-Aware Self-Attention (FASA):
- 功能：在自注意力层中融合PD和FD的信息
- 核心思路：将FD的K/V拼接到PD的K/V后面：\(\hat{K} = [K_p, K_f], \hat{V} = [V_p, V_f]\)，用PD的Q做注意力计算：\(\text{FASA} = \text{Softmax}(\frac{[\mathbf{1}, \omega\mathcal{M}] \odot Q_p\hat{K}^T}{\sqrt{d}})\hat{V}\)，其中 \(\mathcal{M}\) 是属性掩码、\(\omega\) 是缩放因子
- 设计动机：交叉注意力层高度敏感，微小修改即破坏身份；自注意力层保留了基础模型知识，是安全的干预点
属性掩码的精细控制:
- 功能：限制属性注入仅在目标面部区域发生
- 核心思路：用面部解析模型（BiSeNet/SAM）从FD结果中提取目标属性（发型、配饰、眼色等）的二值掩码 \(M_i\)，合并为 \(\mathcal{M} = \bigcup\{M_i\}\)。掩码确保FASA仅在属性区域注入FD信息，非属性区域的身份信息不受干扰
- 设计动机：不加掩码时FASA会引入大量无关FD特征，严重损害身份保真度
非对称Prompt引导（APG）:
- 功能：恢复抽象属性（如表情）
- 核心思路：对FASA处理后的图像做DDIM反转（使用不含属性的模板prompt），然后从中间时间步用包含完整属性的prompt去噪。从 \(\hat{z_{\gamma T}}\) 开始去噪（\(\gamma=0.5\)），保留高层身份信息
- 设计动机：FASA基于空间掩码，适合有明确位置的属性（发型、眼镜）；表情等全局属性没有清晰空间边界，需要不同策略

FLUX适配¶

在FLUX的full-attention DiT中，FASA掩码仅应用于PD视觉query-FD视觉key的交互部分，保留原始跨模态注意力模式。

实验关键数据¶

主实验——Prompt一致性(PC)和身份保真度(IF)¶

方法	PC% ↑	IF% ↑	PC×IF(hMean) ↑
InstantID	21.89	63.94	32.61
+ FreeCure	23.62 (+7.9%)	62.01 (-3.0%)	34.21 (+4.9%)
PuLID (FLUX)	22.42	74.97	34.52
+ FreeCure	24.78 (+10.5%)	72.61 (-3.2%)	36.95 (+7.0%)
InfiniteYou	23.77	79.71	36.62
+ FreeCure	25.25 (+6.2%)	77.13 (-3.2%)	38.05 (+3.9%)

多属性prompt性能¶

属性数	基线PC（SDv1.5）	+FreeCure
1个属性	21.01	22.70 (+8.0%)
2个属性	20.34	22.34 (+9.9%)
3个属性	18.49	20.49 (+10.8%)

消融实验¶

配置	效果	说明
无掩码FASA	身份严重丢失	FD特征全面覆盖PD
有掩码FASA	PC↑ IF仅微降	精准注入目标属性
FASA + APG	最优	空间+抽象属性都恢复
交叉注意力插值	身份快速丢失	验证交叉注意力不可修改

关键发现¶

FreeCure在所有8个基线模型上均提升PC×IF综合指标
属性越多，FreeCure的改善越显著（从8%增到10.8%），说明在复杂场景中更有价值
IF下降控制在3%左右，主要因为面部多样性的正向提升

亮点与洞察¶

"身份嵌入覆盖而非破坏基础知识"这一发现为个性化领域提供了新的理解视角
FASA设计巧妙：通过K/V拼接+掩码实现精准的局部属性注入，不触碰敏感的交叉注意力
跨SD/SDXL/FLUX三代基础模型的通用性证明了方法的架构无关性

局限与展望¶

需要额外运行面部解析模型提取掩码，增加推理时间
双推理范式使推理成本翻倍
对极细粒度属性（如瞳色、耳环形状）的控制仍有提升空间

评分¶

新颖性: ⭐⭐⭐⭐ 发现"基础知识被覆盖未破坏"的洞察有原创性，FASA设计优雅
实验充分度: ⭐⭐⭐⭐⭐ 8个基线方法、3代基础模型、50身份×20prompt的大规模评估
写作质量: ⭐⭐⭐⭐ 分析深入直观，可视化丰富
价值: ⭐⭐⭐⭐ 无训练即插即用，对面部个性化应用有直接价值