跳转至

Continual Unlearning for Text-to-Image Diffusion Models: A Regularization Perspective

会议: ICLR 2026
arXiv: 2511.07970
代码: https://justinhylee135.github.io/CUIG_Project_Page/
领域: 扩散模型 / 机器遗忘
关键词: continual unlearning, diffusion models, regularization, gradient projection, concept erasure

一句话总结

首次系统研究 T2I 扩散模型的持续遗忘(continual unlearning)问题,发现现有遗忘方法在序列请求下因累积参数漂移导致"效用崩溃",提出一组附加正则化策略(L1/L2 范数、选择性微调、模型合并)和语义感知的梯度投影方法来缓解该问题。

研究背景与动机

  1. 领域现状:机器遗忘(machine unlearning)旨在从预训练模型中移除特定概念(如版权内容、有害风格),避免从头重训。现有方法(ConAbl、SculpMem 等)在同时遗忘多个概念时表现良好。

  2. 现有痛点:现实中遗忘请求是序列到达的(今天删除暴力内容,明天删除某画家风格),而非一次性给出。现有方法在序列遗忘场景下仅经过几个请求就出现"效用崩溃"——模型不仅忘了目标概念,连无关概念也无法生成。

  3. 核心矛盾:每次遗忘操作都会推动参数偏离预训练权重,序列操作导致累积参数漂移远大于同时遗忘。预训练权重编码了模型的生成能力,偏离过远就意味着能力丧失。

  4. 本文要解决什么? (a) 定义并基准化持续遗忘问题 (b) 诊断效用崩溃的根因 (c) 提出兼容现有遗忘方法的附加正则化策略 (d) 解决语义域内概念保留的难题

  5. 切入角度:借鉴持续学习(continual learning)中的正则化和梯度投影思想来约束参数更新,关键洞察是需要语义感知——与遗忘目标语义相近的概念更容易被误伤。

  6. 核心 idea 一句话:持续遗忘的效用崩溃本质是累积参数漂移,通过正则化约束漂移 + 梯度投影保护语义相近概念可以有效缓解。

方法详解

整体框架

在每个遗忘请求到达时: - 输入:上一轮遗忘后的模型 \(\theta_{n-1}^*\)、新的遗忘目标 \(c_n^*\) - 处理:用遗忘损失 \(\mathcal{L}_{\text{unlearn}}\) 更新模型,同时附加正则化约束 - 输出:新的模型 \(\theta_n^*\),应同时满足:(1) 有效擦除 \(c_n^*\) (2) 保持之前擦除的 \(c_1^*,...,c_{n-1}^*\) 继续不可生成 (3) 保留所有无关概念的生成能力

关键设计

  1. 更新范数正则化 (L1/L2):
  2. 做什么:直接惩罚参数更新幅度
  3. 核心思路:\(\mathcal{L}_{\text{unlearn}}(\theta, \{c_n^*\}) + \lambda \|\theta - \theta_{n-1}^*\|_p^p\),L1 鼓励稀疏更新,L2 防止单个权重过度漂移
  4. 设计动机:最直接的约束累积漫移方式,简单有效

  5. 选择性微调 (SelFT):

  6. 做什么:只更新对目标概念最重要的 top-k% 参数,冻结其余
  7. 核心思路:用一阶 Taylor 近似估计参数重要性 \(|\nabla_{\theta[d]} \mathcal{L}_{\text{unlearn}} \cdot \theta_{n-1}^*[d]|\),只更新最重要的参数
  8. 设计动机:相比 L1 正则化的各向同性稀疏,SelFT 利用任务相关的稀疏性更有针对性

  9. 模型合并 (Model Merge):

  10. 做什么:对每个概念独立从预训练权重出发遗忘,然后用 TIES-Merging 合并所有独立遗忘的模型
  11. 核心思路:每个独立遗忘模型都靠近预训练权重,合并后仍在同一损失盆地内,保留效用
  12. 设计动机:独立遗忘避免了累积漂移,合并可以在保持接近预训练权重的同时聚合所有遗忘效果

  13. 梯度投影 (GradProj) — 语义感知正则化:

  14. 做什么:将遗忘梯度投影到与语义相近概念正交的子空间,防止对相近概念的干扰
  15. 核心思路:遗忘主要通过修改 cross-attention 的 \(W_K\), \(W_V\) 实现。由于线性投影保持邻域结构,修改 \(W_K, W_V\) 以擦除 \(c^*\) 时不可避免地扰动语义相近的概念 \(c\)。GradProj 选择 top-K 个语义相近概念(按 text embedding 余弦相似度),将 \(W_K, W_V\) 的梯度在这些概念的嵌入方向上的分量去除
  16. 设计动机:跨域保留(如遗忘风格时保留物体)通过通用正则化即可解决,但域内保留(如遗忘一种风格时保留其他风格)极具挑战。实验表明保留准确率与 text embedding 相似度呈强负相关,必须进行语义感知的约束

损失函数 / 训练策略

  • 基于 ConAbl 或 SculpMem 的遗忘损失
  • 正则化附加在遗忘损失上,与具体遗忘方法正交兼容
  • GradProj 选择 top-K=5 个语义相近概念

实验关键数据

主实验(ConAbl + 12 步序列遗忘)

方法 UA ↑ RA-I ↑ RA-C ↑ 说明
Sequential (无正则) ~95% ~20% ~30% 效用崩溃
Simultaneous (非序列) ~90% ~70% ~85% 好但开销大
+ L2 正则 ~92% ~40% ~75% 跨域改善大
+ SelFT ~93% ~35% ~70% 跨域改善
+ Model Merge ~90% ~50% ~85% 总体最强
+ GradProj ~90% ~60% ~70% 域内保留最优
+ Merge + GradProj ~88% ~65% ~85% 互补效果最佳

消融实验

分析 关键发现
参数漂移 vs 保留 序列漂移远大于同时遗忘的漂移,与保留准确率强相关
语义相似度 vs RA-I 强负相关(r ≈ -0.8),越相似的概念越难保留
\(W_K, W_V\) 变化 vs 相似度 强正相关,语义相近概念的 key/value 被严重扰动
GradProj K 值 K=5 即可覆盖最关键的语义邻居

关键发现

  • 序列遗忘仅 3-4 步后RA就崩溃到 <50%,12 步后模型几乎无法生成任何有意义的图像
  • 同时遗忘和独立遗忘的参数漂移量级相仿且远小于序列遗忘
  • Model Merge 总体保留最强因为每个模型都独立靠近预训练权重
  • GradProj 对域内保留(RA-I)提升最显著,因为它精确地保护了语义相近概念
  • 各正则化方法互补,可以组合使用

亮点与洞察

  • 问题定义清晰有价值:首次将持续遗忘在 T2I 扩散模型中基准化,问题动机明确(实际遗忘请求都是序列到达的),benchmark 设计合理(基于 UnlearnCanvas 的标准化评估)。
  • 根因分析深入:不仅发现了效用崩溃,还通过参数漂移分析和 Taylor 展开给出了理论解释——保留损失的变化以 \(\|\theta^* - \theta^\dagger\|\) 为界。
  • 梯度投影的语义感知思路可迁移——在任何需要"修改模型某个能力而不影响相近能力"的场景中都适用,如多任务学习、模型编辑等。
  • 附加正则化不修改遗忘方法本身,具有通用性,可以即插即用地与任何遗忘算法组合。

局限性 / 可改进方向

  • Model Merge 虽然效果好但需要为每个概念独立遗忘,开销不比同时遗忘低多少
  • GradProj 需要知道哪些概念与目标语义相近,实际中如何自动发现这些概念未充分讨论
  • 仅在 UnlearnCanvas 的 fine-tuned SD 上验证,未在 SDXL 等更大模型和实际遗忘场景上测试
  • 正则化无法完全解决域内保留(RA-I 仍然显著低于 RA-C),说明问题尚未完全解决
  • 遗忘有效性(UA)和保留(RA)之间的 trade-off 是否有理论极限?

相关工作与启发

  • vs ConAbl: 直接升级——ConAbl + Model Merge + GradProj 组合在持续设置下大幅改善保留。
  • vs SculpMem: 同样受益于这些正则化策略,说明方法具有通用性。
  • vs 持续学习: 借鉴了 EWC、梯度投影等思想,但指出关键差异——遗忘中需要保留的概念已经被模型学过,干扰风险更大。

评分

  • 新颖性: ⭐⭐⭐⭐ 问题设置新(持续遗忘 for T2I),方法主要是已有技术的组合与适配,但梯度投影的语义感知版本有创意
  • 实验充分度: ⭐⭐⭐⭐ 12 步序列、风格/物体两种设定、多种基线方法、消融和分析全面
  • 写作质量: ⭐⭐⭐⭐⭐ 问题-诊断-方案的逻辑链非常清晰,理论分析与实验相互验证
  • 价值: ⭐⭐⭐⭐⭐ 定义了一个重要的新问题方向,具有直接的社会/法律意义