Invariance Makes LLM Unlearning Resilient Even to Unanticipated Downstream Fine-Tuning¶

会议: ICML2025
arXiv: 2506.01339
代码: OPTML-Group/Unlearn-ILU
领域: ai_safety / LLM遗忘
关键词: LLM 遗忘, 不变性正则化, IRM, 微调鲁棒性, 知识遗忘

一句话总结¶

将不变风险最小化（IRM）引入 LLM 遗忘框架，提出 ILU 正则化方法，使被遗忘的知识在后续下游微调中不会被恢复，仅用单个无关微调数据集即可泛化到多个未知下游任务。

研究背景与动机¶

LLM 遗忘（unlearning）旨在从预训练模型中移除特定知识（如有害内容、隐私数据），同时保留模型能力。现有方法（NPO、RMU）虽然在遗忘后立即有效，但面临一个严重脆弱性：下游微调会意外恢复已遗忘知识——即使微调数据与遗忘内容完全无关。

具体来说，在 WMDP 基准上用 NPO/RMU 遗忘 Zephyr-7B 的生物安全知识后，仅在 GSM8K（数学）或 AGNews（新闻分类）上微调几个 epoch，遗忘效果就快速退化，forget quality 从 ~0.68 降至 ~0.37，几乎恢复到遗忘前水平。这说明现有方法仅实现了"表面遗忘"，知识并未被真正移除。

核心问题：如何让遗忘操作对后续任意微调具有不变性（invariance），使遗忘效果持久？

方法详解¶

标准 LLM 遗忘框架¶

标准遗忘优化目标为：

\[\min_{\theta} \ell_u(\theta; \mathcal{D}_f, \mathcal{D}_r) = \ell_f(\theta; \mathcal{D}_f) + \gamma \ell_r(\theta; \mathcal{D}_r)\]

其中 \(\ell_f\) 为遗忘损失（在遗忘集 \(\mathcal{D}_f\) 上），\(\ell_r\) 为保留损失（在保留集 \(\mathcal{D}_r\) 上），\(\gamma\) 平衡两者。遗忘损失可采用 NPO（负偏好优化）或 RMU（表示重定向）。

ILU：不变 LLM 遗忘¶

受不变风险最小化（IRM）启发，将下游微调视为"训练环境"，在遗忘优化中加入不变性正则化，使模型参数在微调扰动下保持稳定。IRMv1 松弛形式为：

\[\min_{\theta} \ell_u(\theta) + \lambda \sum_{i=1}^{N} \| \nabla_{w|w=1} \ell_i(w \circ \theta; \mathcal{D}_i) \|_2^2\]

其中 \(\lambda > 0\) 为正则化系数，\(\nabla_{w|w=1} \ell_i\) 对虚拟标量预测器 \(w\) 在 \(w=1\) 处求梯度，惩罚非稳态性。

关键发现：单个无关微调数据集即可¶

实验表明，仅用一个与遗忘任务无关的微调集 \(\mathcal{D}\)（如 GSM8K）做不变性正则化，即可泛化到多种未见过的下游微调场景。最终实用形式简化为：

\[\min_{\theta} \ell_u(\theta) + \lambda \| \nabla_{w|w=1} \ell(w \circ \theta; \mathcal{D}) \|_2^2\]

反而使用多个微调集（ILU(Multi)）因优化复杂度增加并无额外增益。使用 \(\mathcal{D} = \mathcal{D}_f\)（遗忘集本身）也不理想，因为遗忘目标（降低准确率）与不变性正则化（为满足稳态性可能提高准确率）存在冲突。

Task Vector 分析¶

定义遗忘方向 \(\tau_u = \theta_u - \theta_o\)，微调方向 \(\tau_{ft} = \theta_{ft} - \theta_o\)。对 NPO，微调后方向偏离遗忘方向：\(\cos(\angle(\tau_{\text{NPO}\to\text{ft}}, \tau_{\text{NPO}})) = -0.41\)。而 ILU 保持近正交：\(\cos(\angle(\tau_{\text{ILU}\to\text{ft}}, \tau_{\text{ILU}})) = 0.09\)，说明 ILU 有效将微调效应与遗忘方向解耦。

实验关键数据¶

基准设置：WMDP 数据集，Zephyr-7B-beta 模型，遗忘生物安全/网络安全知识。评估指标：FQ（forget quality, 1-准确率，越高遗忘越好）、RA（robust accuracy, 微调后平均 FQ）、FA（fine-tuning accuracy, 下游任务准确率）。

WMDP 主实验（表2）¶

方法	FQ↑	MMLU↑	平均 RA↑	平均 FA↑
Original	0.36	58.15	0.37	82.50
RMU	0.68	57.46	0.42	82.43
RMU+ILU(GSM8K)	0.68	57.64	0.65	82.32
NPO	0.52	56.69	0.47	80.30
NPO+ILU(GSM8K)	0.56	55.50	0.56	81.18

RMU+ILU 的平均 RA 比 RMU 提升 23 个百分点（0.42→0.65）
NPO+ILU 的平均 RA 比 NPO 提升 9 个百分点（0.47→0.56）
FA 不降反升，不变性正则化改善了损失面平滑性

与 TAR 和 LAT 对比（LLaMA-3-8B, 表4）¶

方法	平均 RA↑	平均 FA↑	训练时间
NPO	0.61	85.54	15.3 min
LAT	0.64	85.38	21.2 min
TAR	0.70	86.15	7441.9 min
NPO+ILU	0.70	85.81	118.2 min

ILU 与 TAR 鲁棒性相当，但计算效率提升 63 倍。

抗重学习攻击（表3, 60条遗忘数据微调1 epoch）¶

方法	FQ(无攻击)	FQ(有攻击)	下降
RMU	0.68	0.36	0.32
RMU+ILU	0.68	0.54	0.14
NPO	0.52	0.37	0.15
NPO+ILU	0.56	0.50	0.06

超参数 \(\lambda\) 敏感性¶

\(\lambda\) 过大（>0.1）会损害 FQ，过小（~0.05）则无法有效正则化。论文建议在合理范围内调优。

亮点与洞察¶

理论视角新颖：首次将 IRM 不变性概念引入 LLM 遗忘，建立了两个看似无关领域之间的桥梁
极简设计高效：仅需一个无关微调数据集就能泛化到多种未见下游任务，避免了 meta-learning 的高计算开销
即插即用：作为正则化项，可无缝集成到 NPO/RMU 等现有遗忘方法中
Task Vector 分析直观：通过余弦相似度可视化清晰解释了 ILU 为何有效——保持遗忘方向与微调方向解耦
MUSE 补充实验：在 Harry Potter/BBC 数据集上同样有效，VerbMem 保持为 0

局限与展望¶

仅针对微调鲁棒性：未涉及其他攻击方式（如量化攻击、prompt 注入）的鲁棒性
\(\lambda\) 需要调优：正则化强度敏感，需要验证集辅助选择
模型规模有限：仅在 7B/8B 模型上验证，未验证更大模型（70B+）的效果
理论保证缺乏：IRMv1 本身是原始 IRM 的松弛，没有严格收敛保证
遗忘集类型单一：主要在 WMDP 有害知识上验证，对隐私数据遗忘场景的效果未知
抗重学习攻击次于 SAM：在使用遗忘集微调的极端场景下，SAM 方法仍优于 ILU

评分¶

新颖性: ⭐⭐⭐⭐ — IRM+遗忘的交叉视角新颖，概念清晰
实验充分度: ⭐⭐⭐⭐ — 6个下游任务、2个基准、多个基线，消融完整
写作质量: ⭐⭐⭐⭐ — 图表丰富，task vector 分析直观易懂
价值: ⭐⭐⭐⭐⭐ — 解决了 LLM 遗忘领域的核心痛点，即插即用且高效