跳转至

PURGE: Reinforcement Unlearning via Group Relative Policy Optimization

会议: ICLR 2026
arXiv: 2601.20568
代码: 无
领域: 自监督学习 / AI安全
关键词: 机器遗忘, GRPO, 可验证奖励, LLM合规, 隐私保护

一句话总结

PURGE 将 LLM 遗忘(unlearning)重新定义为可验证的 RL 任务,使用 GRPO 框架 + 内在奖励信号(惩罚提及禁止概念)来实现安全一致的知识删除,token 消耗比 SOTA 低 46 倍,同时提升流畅度 +5.48% 和对抗鲁棒性 +12.02%。

研究背景与动机

  1. 领域现状:GDPR "被遗忘权"和 EU AI Act 要求 AI 系统能按需删除特定数据。LLM 在预训练中无意记忆了敏感/版权数据,传统遗忘方法包括梯度上升、DPO/NPO 偏好优化、拒绝调优等。
  2. 现有痛点
  3. 梯度上升:过于激进会导致模型崩溃(流畅度/效用丧失)
  4. 偏好优化(DPO/NPO):依赖外部奖励模型,增加复杂度
  5. 拒绝调优:创建快捷方式,潜在痕迹可能在特定条件下重新出现
  6. 上下文方法:有数据泄露风险且消耗有限上下文窗口
  7. 核心矛盾:有效遗忘 vs 效用保持 vs 对抗鲁棒性三者难以兼得
  8. 切入角度:DeepSeek 的 RLVR(可验证奖励的 RL)在推理任务上成功→遗忘也是可验证任务(能客观测量数据是否被删除)→用 GRPO 来优化遗忘
  9. 核心idea一句话:LLM 遗忘天然是可验证任务——用 GRPO 的内在奖励函数惩罚提及禁止实体,像训练推理模型一样训练遗忘模型。

方法详解

整体框架

三步流程:(1) 构建合成遗忘语料(从模型自身生成 + NER 提取禁止实体集)→ (2) 设计内在奖励函数(检测输出中是否提及禁止概念)→ (3) 用 GRPO 优化策略最小化禁止概念出现概率。

关键设计

  1. 合成遗忘语料构建:复用 RWKU 基准的查询集,对目标模型推理获取当前"知道什么";用 GPT-4 条件化 NER 提取每个遗忘目标的实体集 \(\mathcal{X}_0\)
  2. 内在奖励函数\(\varphi(y) \in \{0, 1\}\)——输出中不含禁止实体则奖励 1,否则 0。无需外部奖励模型——奖励完全由规则定义(可验证)
  3. GRPO 优化:标准 GRPO框架 + KL 正则化保持通用能力。理论证明禁止 token 概率几何衰减:\(P(\text{forbidden token at step } t) \leq (1-\epsilon)^t\)
  4. 理论保证:效用保持通过 KL 散度高概率界保证

损失函数 / 训练策略

  • GRPO clipped surrogate objective + KL penalty
  • 奖励:二元(1=无禁止实体,0=包含禁止实体)
  • 不需要外部奖励模型或人工标注

实验关键数据

主实验(RWKU 基准)

方法 遗忘有效率↑ 效用保持↑ 流畅度↑ 对抗鲁棒性↑ Token/目标↓
Gradient Ascent 60% -15%
DPO 85% +2%
Rejection Tuning 90% 0%
PURGE 11% 98% +5.48% +12.02% ×46更少

关键发现

  • Token 效率极高:每个遗忘目标所需 token 数比 SOTA 少 46 倍
  • 效用几乎无损:98% 原始效用保持——远超梯度上升方法
  • 流畅度反而提升:+5.48%(可能因为 GRPO 的 KL 正则化起到了一定的对齐作用)
  • 对抗鲁棒性显著提升:+12.02%——遗忘后的模型不易被对抗攻击重新激活记忆
  • 理论保证:禁止 token 概率几何衰减 + KL 散度效用保持界

亮点与洞察

  • 将遗忘重新框架为可验证 RL 任务是核心创新——GRPO 原本用于推理,但"是否提及禁止概念"同样是可客观验证的,这个洞察打通了 RL 与隐私合规。
  • 无需外部奖励模型大幅降低了工程复杂度——内在规则奖励比训练一个偏好模型简单得多,且支持任意粒度的遗忘目标定义。
  • 理论保证的实用性:几何衰减界给出了遗忘收敛速度的定量预测,KL 界给出了效用损失的上界控制。

局限性 / 可改进方向

  • 11% 的遗忘有效率绝对值偏低——虽然保持了高效用,但遗忘不够彻底
  • 仅在 RWKU 单一基准上验证——需更多遗忘场景测试
  • 合成语料依赖 GPT-4 进行 NER——引入了对外部大模型的依赖
  • 二元奖励可能过于粗粒度——未区分部分泄露和完全泄露
  • 未测试在 >7B 模型上的效果

相关工作与启发

  • vs Gradient Ascent: GA 高遗忘率但崩溃风险大;PURGE 通过 GRPO+KL 约束避免崩溃
  • vs DPO/NPO: 偏好优化需要外部奖励模型;PURGE 用内在可验证奖励,零额外开销
  • vs Rejection Tuning: RT 创建快捷方式,痕迹可能重现;PURGE 直接优化概率分布图

评分

  • 新颖性: ⭐⭐⭐⭐ 将 GRPO 用于遗忘是有趣的新方向,但技术贡献较直接
  • 实验充分度: ⭐⭐⭐ 单一基准(RWKU),需要更多验证
  • 写作质量: ⭐⭐⭐⭐ 理论部分严谨,方法描述清晰
  • 价值: ⭐⭐⭐⭐ 遗忘即验证任务的范式有启发性,但 11% 遗忘率需提升