跳转至

ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation

会议: CVPR 2025
arXiv: 2503.10358
代码: 无(未提及)
领域: 扩散模型 / 图像生成
关键词: 持续学习, 个性化生成, 灾难性遗忘, 概念混淆, LoRA微调

一句话总结

提出 ConceptGuard,通过移位嵌入、概念绑定提示、记忆保持正则化和优先队列回放四种策略,实现持续个性化 T2I 生成中灾难性遗忘和概念混淆的缓解,在多概念基准上大幅超越现有方法。

研究背景与动机

领域现状:个性化 T2I 生成(如 DreamBooth、Textual Inversion)可以让扩散模型学习新概念。但用户通常需要依次教授多个概念——持续学习场景。

现有痛点:(1) 灾难性遗忘:学习新概念时旧概念的生成能力丢失;(2) 概念混淆:不同概念的特征混合(如用户 A 的狗和用户 B 的猫特征混在一起)。现有持续扩散方法(如 Continual Diffusion)部分缓解了遗忘但概念混淆严重(FI=4.1)。

核心矛盾:共享模型权重使新旧概念相互干扰——微调新概念会覆盖旧概念的 LoRA 权重(遗忘),同时不同概念的嵌入在权重空间中重叠(混淆)。

本文目标 在持续添加新个性化概念时,同时缓解遗忘(保持旧概念质量)和混淆(区分不同概念的身份特征)。

切入角度:多管齐下——动态调整旧嵌入以适应权重变化(移位嵌入),引入概念绑定提示消歧,约束权重变化幅度(正则化),智能选择回放概念(优先队列)。

核心 idea:通过嵌入移位、概念绑定提示、LoRA 权重正则化和自适应回放四种互补策略,在持续个性化 T2I 中同时缓解遗忘和混淆。

方法详解

整体框架

基于 SDXL + LoRA(仅微调 K/V self-attention 层)。每次学习新概念时:(1) 用 shift embedding 更新所有旧概念的嵌入以适应模型变化;(2) 为每个概念生成可训练的绑定提示+全局绑定提示用于消歧;(3) 对 LoRA 权重增量施加正则化避免过度偏移;(4) 优先队列根据时间和重要性选择回放概念。

关键设计

  1. 移位嵌入(Shift Embeddings)

    • 功能:当模型权重因学习新概念而更新后,动态调整旧概念的嵌入以恢复生成质量
    • 核心思路:模型权重从 \(\theta_t\) 变为 \(\theta_{t+1}\) 后,旧嵌入 \(e_i\) 在新权重下可能不再产生正确输出。训练一个轻量级嵌入偏移 \(\Delta e_i\) 使 \(e_i + \Delta e_i\) 在新模型下恢复旧概念的生成
    • 设计动机:直接回放旧概念可能不够,因为模型"地形"已变化,旧嵌入对应的"位置"不再最优
  2. 概念绑定提示(Concept-Binding Prompts, CBP)

    • 功能:为每个概念引入独特的可学习标识符,避免概念间混淆
    • 核心思路:每个概念有可训练的重要性权重和绑定提示 token。全局绑定提示统一不同概念的表示空间。消融显示 CBP 是最关键的组件——移除后多概念 IA 从 69.8 降到 59.3,FI 从 1.9 恶化到 3.9
    • 设计动机:标准 token(如"[V1]"、"[V2]")在持续学习中语义模糊,绑定提示提供更强的概念区分信号
  3. 优先队列自适应回放

    • 功能:智能选择哪些旧概念需要回放、回放多少
    • 核心思路:维护优先队列,基于概念的学习时间(近期概念更需巩固)和学习到的重要性权重排序。每次学习新概念时,从队列中选择 top-K 概念生成回放图像(用 SAM 分割背景以提高多样性)
    • 设计动机:回放所有旧概念开销太大,随机选择不够高效。优先队列平衡效率和效果

损失函数 / 训练策略

标准扩散去噪损失 + LoRA 权重增量的 L2 正则化。LoRA 仅微调 K/V 自注意力层。

实验关键数据

主实验

方法 TA-单概念↑ TA-多概念↑ IA-单概念↑ IA-多概念↑ 遗忘FT↓ 混淆FI↓
Textual Inversion 40.1 35.1 71.1 45.3 0.0 0.0
Continual Diffusion 42.3 37.8 77.5 57.1 1.7 4.1
ConceptGuard 43.1 40.3 81.3 69.8 0.9 1.9

消融实验

组件 IA-多概念↑ FI↓
完整模型 69.8 1.9
去掉 CBP 59.3 3.9
去掉 Shift Embedding 65.1 2.4
去掉正则化 67.2 2.1

关键发现

  • CBP 是最重要的组件(移除后 IA 降 10.5,FI 恶化 2×)
  • 多概念场景提升最显著(IA 从 57.1→69.8),说明方法有效解决了概念混淆
  • 遗忘和混淆同时缓解(FT 0.9 vs 1.7,FI 1.9 vs 4.1)

亮点与洞察

  • 遗忘+混淆的双重分析比仅关注遗忘更全面,概念混淆在实际应用中可能比遗忘更严重
  • 移位嵌入的思路可迁移到其他持续学习场景——模型更新后旧"接口"需要重新校准

局限与展望

  • 每步学习需要对旧概念生成回放图像(含 SAM 分割),计算开销大
  • 随概念数增加性能仍会下降,只是更缓慢
  • 依赖 LoRA 微调,不同微调策略的适配性未探索

评分

  • 新颖性: ⭐⭐⭐⭐ 四种策略的组合设计全面,CBP 是核心贡献
  • 实验充分度: ⭐⭐⭐⭐ 主实验+详细消融+多指标评估
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰
  • 价值: ⭐⭐⭐⭐ 对实际的个性化 T2I 应用有直接价值

相关论文