PURGE: Reinforcement Unlearning via Group Relative Policy Optimization¶

会议: ICLR 2026
arXiv: 2601.20568
代码: 无
领域: 自监督学习 / AI安全
关键词: 机器遗忘, GRPO, 可验证奖励, LLM合规, 隐私保护

一句话总结¶

PURGE 将 LLM 遗忘（unlearning）重新定义为可验证的 RL 任务，使用 GRPO 框架 + 内在奖励信号（惩罚提及禁止概念）来实现安全一致的知识删除，token 消耗比 SOTA 低 46 倍，同时提升流畅度 +5.48% 和对抗鲁棒性 +12.02%。

领域现状：GDPR "被遗忘权"和 EU AI Act 要求 AI 系统能按需删除特定数据。LLM 在预训练中无意记忆了敏感/版权数据，传统遗忘方法包括梯度上升、DPO/NPO 偏好优化、拒绝调优等。
现有痛点：
梯度上升：过于激进会导致模型崩溃（流畅度/效用丧失）
偏好优化（DPO/NPO）：依赖外部奖励模型，增加复杂度
拒绝调优：创建快捷方式，潜在痕迹可能在特定条件下重新出现
上下文方法：有数据泄露风险且消耗有限上下文窗口
核心矛盾：有效遗忘 vs 效用保持 vs 对抗鲁棒性三者难以兼得
切入角度：DeepSeek 的 RLVR（可验证奖励的 RL）在推理任务上成功→遗忘也是可验证任务（能客观测量数据是否被删除）→用 GRPO 来优化遗忘
核心idea一句话：LLM 遗忘天然是可验证任务——用 GRPO 的内在奖励函数惩罚提及禁止实体，像训练推理模型一样训练遗忘模型。

三步流程：(1) 构建合成遗忘语料（从模型自身生成 + NER 提取禁止实体集）→ (2) 设计内在奖励函数（检测输出中是否提及禁止概念）→ (3) 用 GRPO 优化策略最小化禁止概念出现概率。

合成遗忘语料构建：复用 RWKU 基准的查询集，对目标模型推理获取当前"知道什么"；用 GPT-4 条件化 NER 提取每个遗忘目标的实体集 \(\mathcal{X}_0\)
内在奖励函数：\(\varphi(y) \in \{0, 1\}\)——输出中不含禁止实体则奖励 1，否则 0。无需外部奖励模型——奖励完全由规则定义（可验证）
GRPO 优化：标准 GRPO框架 + KL 正则化保持通用能力。理论证明禁止 token 概率几何衰减：\(P(\text{forbidden token at step } t) \leq (1-\epsilon)^t\)
理论保证：效用保持通过 KL 散度高概率界保证

方法	遗忘有效率↑	效用保持↑	流畅度↑	对抗鲁棒性↑	Token/目标↓
Gradient Ascent	高	60%	-15%	低	高
DPO	中	85%	+2%	中	中
Rejection Tuning	中	90%	0%	低	低
PURGE	11%	98%	+5.48%	+12.02%	×46更少