ConceptGuard: Continual Personalized Text-to-Image Generation with Forgetting and Confusion Mitigation¶

会议: CVPR 2025
arXiv: 2503.10358
代码: 无（未提及）
领域: 扩散模型 / 图像生成
关键词: 持续学习, 个性化生成, 灾难性遗忘, 概念混淆, LoRA微调

一句话总结¶

提出 ConceptGuard，通过移位嵌入、概念绑定提示、记忆保持正则化和优先队列回放四种策略，实现持续个性化 T2I 生成中灾难性遗忘和概念混淆的缓解，在多概念基准上大幅超越现有方法。

研究背景与动机¶

领域现状：个性化 T2I 生成（如 DreamBooth、Textual Inversion）可以让扩散模型学习新概念。但用户通常需要依次教授多个概念——持续学习场景。

现有痛点：(1) 灾难性遗忘：学习新概念时旧概念的生成能力丢失；(2) 概念混淆：不同概念的特征混合（如用户 A 的狗和用户 B 的猫特征混在一起）。现有持续扩散方法（如 Continual Diffusion）部分缓解了遗忘但概念混淆严重（FI=4.1）。

核心矛盾：共享模型权重使新旧概念相互干扰——微调新概念会覆盖旧概念的 LoRA 权重（遗忘），同时不同概念的嵌入在权重空间中重叠（混淆）。

本文目标 在持续添加新个性化概念时，同时缓解遗忘（保持旧概念质量）和混淆（区分不同概念的身份特征）。

切入角度：多管齐下——动态调整旧嵌入以适应权重变化（移位嵌入），引入概念绑定提示消歧，约束权重变化幅度（正则化），智能选择回放概念（优先队列）。

核心 idea：通过嵌入移位、概念绑定提示、LoRA 权重正则化和自适应回放四种互补策略，在持续个性化 T2I 中同时缓解遗忘和混淆。

方法详解¶

整体框架¶

基于 SDXL + LoRA（仅微调 K/V self-attention 层）。每次学习新概念时：(1) 用 shift embedding 更新所有旧概念的嵌入以适应模型变化；(2) 为每个概念生成可训练的绑定提示+全局绑定提示用于消歧；(3) 对 LoRA 权重增量施加正则化避免过度偏移；(4) 优先队列根据时间和重要性选择回放概念。

关键设计¶

移位嵌入（Shift Embeddings）
- 功能：当模型权重因学习新概念而更新后，动态调整旧概念的嵌入以恢复生成质量
- 核心思路：模型权重从 \(\theta_t\) 变为 \(\theta_{t+1}\) 后，旧嵌入 \(e_i\) 在新权重下可能不再产生正确输出。训练一个轻量级嵌入偏移 \(\Delta e_i\) 使 \(e_i + \Delta e_i\) 在新模型下恢复旧概念的生成
- 设计动机：直接回放旧概念可能不够，因为模型"地形"已变化，旧嵌入对应的"位置"不再最优
概念绑定提示（Concept-Binding Prompts, CBP）
- 功能：为每个概念引入独特的可学习标识符，避免概念间混淆
- 核心思路：每个概念有可训练的重要性权重和绑定提示 token。全局绑定提示统一不同概念的表示空间。消融显示 CBP 是最关键的组件——移除后多概念 IA 从 69.8 降到 59.3，FI 从 1.9 恶化到 3.9
- 设计动机：标准 token（如"[V1]"、"[V2]"）在持续学习中语义模糊，绑定提示提供更强的概念区分信号
优先队列自适应回放
- 功能：智能选择哪些旧概念需要回放、回放多少
- 核心思路：维护优先队列，基于概念的学习时间（近期概念更需巩固）和学习到的重要性权重排序。每次学习新概念时，从队列中选择 top-K 概念生成回放图像（用 SAM 分割背景以提高多样性）
- 设计动机：回放所有旧概念开销太大，随机选择不够高效。优先队列平衡效率和效果

损失函数 / 训练策略¶

标准扩散去噪损失 + LoRA 权重增量的 L2 正则化。LoRA 仅微调 K/V 自注意力层。

实验关键数据¶

主实验¶

方法	TA-单概念↑	TA-多概念↑	IA-单概念↑	IA-多概念↑	遗忘FT↓	混淆FI↓
Textual Inversion	40.1	35.1	71.1	45.3	0.0	0.0
Continual Diffusion	42.3	37.8	77.5	57.1	1.7	4.1
ConceptGuard	43.1	40.3	81.3	69.8	0.9	1.9

消融实验¶

组件	IA-多概念↑	FI↓
完整模型	69.8	1.9
去掉 CBP	59.3	3.9
去掉 Shift Embedding	65.1	2.4
去掉正则化	67.2	2.1

关键发现¶

CBP 是最重要的组件（移除后 IA 降 10.5，FI 恶化 2×）
多概念场景提升最显著（IA 从 57.1→69.8），说明方法有效解决了概念混淆
遗忘和混淆同时缓解（FT 0.9 vs 1.7，FI 1.9 vs 4.1）

亮点与洞察¶

遗忘+混淆的双重分析比仅关注遗忘更全面，概念混淆在实际应用中可能比遗忘更严重
移位嵌入的思路可迁移到其他持续学习场景——模型更新后旧"接口"需要重新校准

局限与展望¶

每步学习需要对旧概念生成回放图像（含 SAM 分割），计算开销大
随概念数增加性能仍会下降，只是更缓慢
依赖 LoRA 微调，不同微调策略的适配性未探索

评分¶

新颖性: ⭐⭐⭐⭐ 四种策略的组合设计全面，CBP 是核心贡献
实验充分度: ⭐⭐⭐⭐ 主实验+详细消融+多指标评估
写作质量: ⭐⭐⭐⭐ 问题定义清晰
价值: ⭐⭐⭐⭐ 对实际的个性化 T2I 应用有直接价值