PURGE: Reinforcement Unlearning via Group Relative Policy Optimization¶
会议: ICLR 2026
arXiv: 2601.20568
代码: 无
领域: 自监督学习 / AI安全
关键词: 机器遗忘, GRPO, 可验证奖励, LLM合规, 隐私保护
一句话总结¶
PURGE 将 LLM 遗忘(unlearning)重新定义为可验证的 RL 任务,使用 GRPO 框架 + 内在奖励信号(惩罚提及禁止概念)来实现安全一致的知识删除,token 消耗比 SOTA 低 46 倍,同时提升流畅度 +5.48% 和对抗鲁棒性 +12.02%。
研究背景与动机¶
- 领域现状:GDPR "被遗忘权"和 EU AI Act 要求 AI 系统能按需删除特定数据。LLM 在预训练中无意记忆了敏感/版权数据,传统遗忘方法包括梯度上升、DPO/NPO 偏好优化、拒绝调优等。
- 现有痛点:
- 梯度上升:过于激进会导致模型崩溃(流畅度/效用丧失)
- 偏好优化(DPO/NPO):依赖外部奖励模型,增加复杂度
- 拒绝调优:创建快捷方式,潜在痕迹可能在特定条件下重新出现
- 上下文方法:有数据泄露风险且消耗有限上下文窗口
- 核心矛盾:有效遗忘 vs 效用保持 vs 对抗鲁棒性三者难以兼得
- 切入角度:DeepSeek 的 RLVR(可验证奖励的 RL)在推理任务上成功→遗忘也是可验证任务(能客观测量数据是否被删除)→用 GRPO 来优化遗忘
- 核心idea一句话:LLM 遗忘天然是可验证任务——用 GRPO 的内在奖励函数惩罚提及禁止实体,像训练推理模型一样训练遗忘模型。
方法详解¶
整体框架¶
三步流程:(1) 构建合成遗忘语料(从模型自身生成 + NER 提取禁止实体集)→ (2) 设计内在奖励函数(检测输出中是否提及禁止概念)→ (3) 用 GRPO 优化策略最小化禁止概念出现概率。
关键设计¶
- 合成遗忘语料构建:复用 RWKU 基准的查询集,对目标模型推理获取当前"知道什么";用 GPT-4 条件化 NER 提取每个遗忘目标的实体集 \(\mathcal{X}_0\)
- 内在奖励函数:\(\varphi(y) \in \{0, 1\}\)——输出中不含禁止实体则奖励 1,否则 0。无需外部奖励模型——奖励完全由规则定义(可验证)
- GRPO 优化:标准 GRPO框架 + KL 正则化保持通用能力。理论证明禁止 token 概率几何衰减:\(P(\text{forbidden token at step } t) \leq (1-\epsilon)^t\)
- 理论保证:效用保持通过 KL 散度高概率界保证
损失函数 / 训练策略¶
- GRPO clipped surrogate objective + KL penalty
- 奖励:二元(1=无禁止实体,0=包含禁止实体)
- 不需要外部奖励模型或人工标注
实验关键数据¶
主实验(RWKU 基准)¶
| 方法 | 遗忘有效率↑ | 效用保持↑ | 流畅度↑ | 对抗鲁棒性↑ | Token/目标↓ |
|---|---|---|---|---|---|
| Gradient Ascent | 高 | 60% | -15% | 低 | 高 |
| DPO | 中 | 85% | +2% | 中 | 中 |
| Rejection Tuning | 中 | 90% | 0% | 低 | 低 |
| PURGE | 11% | 98% | +5.48% | +12.02% | ×46更少 |
关键发现¶
- Token 效率极高:每个遗忘目标所需 token 数比 SOTA 少 46 倍
- 效用几乎无损:98% 原始效用保持——远超梯度上升方法
- 流畅度反而提升:+5.48%(可能因为 GRPO 的 KL 正则化起到了一定的对齐作用)
- 对抗鲁棒性显著提升:+12.02%——遗忘后的模型不易被对抗攻击重新激活记忆
- 理论保证:禁止 token 概率几何衰减 + KL 散度效用保持界
亮点与洞察¶
- 将遗忘重新框架为可验证 RL 任务是核心创新——GRPO 原本用于推理,但"是否提及禁止概念"同样是可客观验证的,这个洞察打通了 RL 与隐私合规。
- 无需外部奖励模型大幅降低了工程复杂度——内在规则奖励比训练一个偏好模型简单得多,且支持任意粒度的遗忘目标定义。
- 理论保证的实用性:几何衰减界给出了遗忘收敛速度的定量预测,KL 界给出了效用损失的上界控制。
局限性 / 可改进方向¶
- 11% 的遗忘有效率绝对值偏低——虽然保持了高效用,但遗忘不够彻底
- 仅在 RWKU 单一基准上验证——需更多遗忘场景测试
- 合成语料依赖 GPT-4 进行 NER——引入了对外部大模型的依赖
- 二元奖励可能过于粗粒度——未区分部分泄露和完全泄露
- 未测试在 >7B 模型上的效果
相关工作与启发¶
- vs Gradient Ascent: GA 高遗忘率但崩溃风险大;PURGE 通过 GRPO+KL 约束避免崩溃
- vs DPO/NPO: 偏好优化需要外部奖励模型;PURGE 用内在可验证奖励,零额外开销
- vs Rejection Tuning: RT 创建快捷方式,痕迹可能重现;PURGE 直接优化概率分布图
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 GRPO 用于遗忘是有趣的新方向,但技术贡献较直接
- 实验充分度: ⭐⭐⭐ 单一基准(RWKU),需要更多验证
- 写作质量: ⭐⭐⭐⭐ 理论部分严谨,方法描述清晰
- 价值: ⭐⭐⭐⭐ 遗忘即验证任务的范式有启发性,但 11% 遗忘率需提升