ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation¶
会议: CVPR 2025
arXiv: 2503.10358
代码: 无(未提及)
领域: 扩散模型 / 图像生成
关键词: 持续学习, 个性化生成, 灾难性遗忘, 概念混淆, LoRA微调
一句话总结¶
提出 ConceptGuard,通过移位嵌入、概念绑定提示、记忆保持正则化和优先队列回放四种策略,实现持续个性化 T2I 生成中灾难性遗忘和概念混淆的缓解,在多概念基准上大幅超越现有方法。
研究背景与动机¶
领域现状:个性化 T2I 生成(如 DreamBooth、Textual Inversion)可以让扩散模型学习新概念。但用户通常需要依次教授多个概念——持续学习场景。
现有痛点:(1) 灾难性遗忘:学习新概念时旧概念的生成能力丢失;(2) 概念混淆:不同概念的特征混合(如用户 A 的狗和用户 B 的猫特征混在一起)。现有持续扩散方法(如 Continual Diffusion)部分缓解了遗忘但概念混淆严重(FI=4.1)。
核心矛盾:共享模型权重使新旧概念相互干扰——微调新概念会覆盖旧概念的 LoRA 权重(遗忘),同时不同概念的嵌入在权重空间中重叠(混淆)。
本文目标 在持续添加新个性化概念时,同时缓解遗忘(保持旧概念质量)和混淆(区分不同概念的身份特征)。
切入角度:多管齐下——动态调整旧嵌入以适应权重变化(移位嵌入),引入概念绑定提示消歧,约束权重变化幅度(正则化),智能选择回放概念(优先队列)。
核心 idea:通过嵌入移位、概念绑定提示、LoRA 权重正则化和自适应回放四种互补策略,在持续个性化 T2I 中同时缓解遗忘和混淆。
方法详解¶
整体框架¶
基于 SDXL + LoRA(仅微调 K/V self-attention 层)。每次学习新概念时:(1) 用 shift embedding 更新所有旧概念的嵌入以适应模型变化;(2) 为每个概念生成可训练的绑定提示+全局绑定提示用于消歧;(3) 对 LoRA 权重增量施加正则化避免过度偏移;(4) 优先队列根据时间和重要性选择回放概念。
关键设计¶
-
移位嵌入(Shift Embeddings)
- 功能:当模型权重因学习新概念而更新后,动态调整旧概念的嵌入以恢复生成质量
- 核心思路:模型权重从 \(\theta_t\) 变为 \(\theta_{t+1}\) 后,旧嵌入 \(e_i\) 在新权重下可能不再产生正确输出。训练一个轻量级嵌入偏移 \(\Delta e_i\) 使 \(e_i + \Delta e_i\) 在新模型下恢复旧概念的生成
- 设计动机:直接回放旧概念可能不够,因为模型"地形"已变化,旧嵌入对应的"位置"不再最优
-
概念绑定提示(Concept-Binding Prompts, CBP)
- 功能:为每个概念引入独特的可学习标识符,避免概念间混淆
- 核心思路:每个概念有可训练的重要性权重和绑定提示 token。全局绑定提示统一不同概念的表示空间。消融显示 CBP 是最关键的组件——移除后多概念 IA 从 69.8 降到 59.3,FI 从 1.9 恶化到 3.9
- 设计动机:标准 token(如"[V1]"、"[V2]")在持续学习中语义模糊,绑定提示提供更强的概念区分信号
-
优先队列自适应回放
- 功能:智能选择哪些旧概念需要回放、回放多少
- 核心思路:维护优先队列,基于概念的学习时间(近期概念更需巩固)和学习到的重要性权重排序。每次学习新概念时,从队列中选择 top-K 概念生成回放图像(用 SAM 分割背景以提高多样性)
- 设计动机:回放所有旧概念开销太大,随机选择不够高效。优先队列平衡效率和效果
损失函数 / 训练策略¶
标准扩散去噪损失 + LoRA 权重增量的 L2 正则化。LoRA 仅微调 K/V 自注意力层。
实验关键数据¶
主实验¶
| 方法 | TA-单概念↑ | TA-多概念↑ | IA-单概念↑ | IA-多概念↑ | 遗忘FT↓ | 混淆FI↓ |
|---|---|---|---|---|---|---|
| Textual Inversion | 40.1 | 35.1 | 71.1 | 45.3 | 0.0 | 0.0 |
| Continual Diffusion | 42.3 | 37.8 | 77.5 | 57.1 | 1.7 | 4.1 |
| ConceptGuard | 43.1 | 40.3 | 81.3 | 69.8 | 0.9 | 1.9 |
消融实验¶
| 组件 | IA-多概念↑ | FI↓ |
|---|---|---|
| 完整模型 | 69.8 | 1.9 |
| 去掉 CBP | 59.3 | 3.9 |
| 去掉 Shift Embedding | 65.1 | 2.4 |
| 去掉正则化 | 67.2 | 2.1 |
关键发现¶
- CBP 是最重要的组件(移除后 IA 降 10.5,FI 恶化 2×)
- 多概念场景提升最显著(IA 从 57.1→69.8),说明方法有效解决了概念混淆
- 遗忘和混淆同时缓解(FT 0.9 vs 1.7,FI 1.9 vs 4.1)
亮点与洞察¶
- 遗忘+混淆的双重分析比仅关注遗忘更全面,概念混淆在实际应用中可能比遗忘更严重
- 移位嵌入的思路可迁移到其他持续学习场景——模型更新后旧"接口"需要重新校准
局限与展望¶
- 每步学习需要对旧概念生成回放图像(含 SAM 分割),计算开销大
- 随概念数增加性能仍会下降,只是更缓慢
- 依赖 LoRA 微调,不同微调策略的适配性未探索
评分¶
- 新颖性: ⭐⭐⭐⭐ 四种策略的组合设计全面,CBP 是核心贡献
- 实验充分度: ⭐⭐⭐⭐ 主实验+详细消融+多指标评估
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰
- 价值: ⭐⭐⭐⭐ 对实际的个性化 T2I 应用有直接价值
相关论文¶
- [CVPR 2025] PersonaBooth: Personalized Text-to-Motion Generation
- [CVPR 2025] DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching
- [CVPR 2025] Yo'Chameleon: Personalized Vision and Language Generation
- [CVPR 2025] One-for-More: Continual Diffusion Model for Anomaly Detection
- [NeurIPS 2025] Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models