Distillation Robustifies Unlearning¶

会议: NeurIPS 2025
arXiv: 2506.06278
代码: 公开（GitHub）
领域: AI安全 / 模型遗忘 / 知识蒸馏
关键词: 鲁棒遗忘, 知识蒸馏, UNDO, 能力移除, 重学习攻击, WMDP

一句话总结¶

揭示了"蒸馏能使遗忘变得鲁棒"的核心发现——将遗忘后的模型蒸馏到随机初始化的学生网络中能有效丢弃潜在能力，并基于此提出UNDO方法（Unlearn-Noise-Distill-on-Outputs），通过对遗忘模型权重加噪再蒸馏，建立了计算量与鲁棒性之间的可调权衡，在合成任务和WMDP基准上接近从头重训的黄金标准。

背景与动机¶

LLM在海量未过滤数据上的预训练可能习得有害能力（如网络武器开发知识）。现有应对方案存在根本缺陷：

RLHF等后训练方法：仅抑制行为表现，底层能力完好无损，易被对抗提示/微调攻击恢复
现有遗忘方法（梯度上升、最大熵等）：同样只是行为层面的抑制，几步微调即可逆转效果
数据过滤+从头重训：理论上的黄金标准，但在大规模预训练数据上标注并过滤几乎不可行

核心困境：模型的输入-输出行为可以被大幅修改，但其底层能力结构在参数空间中保持完好——训练一个模型达到与oracle（从未见过遗忘数据的模型）完美的行为一致，并不能保证能力的真正移除。

核心问题¶

如何实现对LLM中不需要能力的鲁棒移除，使得即使在最强的重学习攻击（对抗性微调）下，遗忘效果也无法被轻易逆转？

方法详解¶

关键发现一：Oracle匹配不保证鲁棒遗忘¶

将参考模型（同时具有retain和forget能力）的输出通过KL散度蒸馏匹配到oracle模型的输出，使两者行为几乎完全一致（KL loss趋零）。然而：

Student (Reference)：从参考模型出发匹配oracle，重学习攻击下快速恢复遗忘能力
Student (Random)：从随机初始化出发匹配oracle，重学习攻击下恢复速度接近oracle本身

这证明行为匹配不等于参数空间中的能力移除。

关键发现二：蒸馏使遗忘鲁棒¶

对三种标准遗忘方法分别结合蒸馏（Unlearn-and-Distill）：

GradDiff：\(\mathcal{L}(\theta) = -L_{\text{forget}}(\theta) + L_{\text{retain}}(\theta)\)，对forget数据梯度上升+对retain数据梯度下降
MaxEnt：\(\mathcal{L}(\theta) = L_{\text{uniform}}(\theta) + L_{\text{retain}}(\theta)\)，将forget数据上的输出推向均匀分布
RMU：\(\mathcal{L}(\theta) = L_{\text{misdirect}}(\theta) + \alpha \cdot L_{\text{preserve}}(\theta)\)，在表示层面将forget数据的激活推向随机方向

每种方法遗忘后，将结果模型蒸馏到随机初始化的同架构学生中。结果：蒸馏后的模型在所有重学习攻击强度下都显著更抗重学习，部分情况下接近数据过滤重训的黄金标准。

UNDO：Unlearn-Noise-Distill-on-Outputs¶

UNDO将Unlearn-and-Distill推广为三步流程，引入计算量-鲁棒性权衡：

Step 1 - Unlearn：应用标准遗忘方法得到行为抑制模型（教师）

Step 2 - Noise：对教师权重施加控制性扰动生成学生初始化：

\[\theta_{\text{perturbed}} = (1 - \alpha) \theta_{\text{suppressed}} + \alpha \beta N\]

其中\(\alpha \in [0,1]\)为混合系数，\(\beta \in \mathbb{R}^+\)为噪声尺度，\(N\)为Xavier初始化采样的噪声。\((1-\alpha)\)项收缩原参数，\(\alpha\beta N\)注入噪声。\(\alpha=0\)退化为不加噪（无鲁棒性提升），\(\alpha=1, \beta=1\)退化为完全随机初始化。

Step 3 - Distill：用前向KL散度将教师输出蒸馏到扰动后的学生中，恢复retain性能。

关键超参分析¶

\(\alpha\)是主要控制旋钮：\(\alpha\)增大→鲁棒性提升→所需蒸馏计算量增加，关系近似线性
\(\beta\)影响次要：对大多数\(\alpha\)值，\(\beta \in [0.05, 0.5]\)效果相近；\(\beta=0\)（纯收缩）也可以有效
推荐设置：\(\alpha=0.6\), \(\beta=0.1\)，基于MaxEnt遗忘的教师

实验关键数据¶

实验设置¶

合成任务：100M参数Gemma 2架构，语言任务（English retain / Korean forget）和算术任务（加减 retain / 乘除 forget）
WMDP基准：Gemma-2-2B（\(\alpha=0.25\), \(\beta=0\)），评估生物武器（WMDP-Bio）和网络武器（WMDP-Cyber）知识的移除

主要对比（500步重学习攻击后）¶

方法	语言 Retain ↑	语言 Forget ↓	算术 Retain ↑	算术 Forget ↓
GradDiff（仅遗忘）	高	快速恢复	高	快速恢复
MaxEnt（仅遗忘）	高	快速恢复	高	快速恢复
RepNoise	中	部分恢复	中	部分恢复
SAM	中	部分恢复	中	部分恢复
UNDO (MaxEnt)	高	极低恢复	高	极低恢复
数据过滤重训	高	极低	高	极低

UNDO的计算效率¶

UNDO在\(\alpha=0.6\)时使用约60-80%的数据过滤重训计算量
仅需标注0.01%的预训练数据（用于遗忘阶段）
在WMDP上，UNDO使MMLU平均下降4.88%（在Pareto前沿上）

UNDO扰动程度的影响（语言任务，MaxEnt教师）¶

\(\alpha\)	相对鲁棒性 ↑	相对计算量 ↑
0.2	~20%	~15%
0.4	~45%	~35%
0.6	~70%	~55%
0.8	~90%	~75%

鲁棒性定义为\((P_{\text{UNDO}} - P_{\text{Unlearn Only}}) / (P_{\text{Data Filtering}} - P_{\text{Unlearn Only}})\)

亮点¶

核心洞察深刻且实用："蒸馏丢弃潜在能力"这一发现既优雅又具有即时实践价值——当前前沿AI公司已广泛使用蒸馏来降低推理成本，只需在蒸馏前增加遗忘步骤即可获得鲁棒性
理论解释清晰：行为抑制 vs 真正能力移除的区分，通过Oracle匹配实验直观展示潜在能力在参数空间中的保留
UNDO的\(\alpha\)旋钮设计：提供了一个清晰的计算量-鲁棒性权衡曲面，实际部署中可根据需求灵活选取
实验设计严谨：多学习率最强对手评估（worst-case adversary）、5种随机种子、多任务多领域验证

局限性 / 可改进方向¶

WMDP上的retain性能损失：MMLU平均下降4.88%，在实际部署中可能不可接受，作者归因于蒸馏时仅用了0.015%的预训练数据
蒸馏计算成本：虽然比数据过滤重训便宜，但相比纯微调遗忘方法仍然昂贵得多
模型规模有限：合成实验仅100M参数，WMDP实验仅2B参数，未验证在70B+规模上的表现
遗忘目标的定义：当前框架假设retain/forget集合可以清晰划分，在实际中能力边界往往模糊
对蒸馏数据量的敏感性：WMDP结果暗示蒸馏数据量不足时效果受限，但未系统研究最低数据需求
未考虑更强的攻击：仅使用重学习攻击（微调），未测试表示工程、模型手术等更高级的能力恢复手段

评分¶

新颖性: ⭐⭐⭐⭐ 蒸馏鲁棒化遗忘的洞察新颖且影响深远，UNDO的噪声插值设计巧妙
实验充分度: ⭐⭐⭐⭐ 多任务多方法多基线多攻击强度的全面评估，WMDP实际基准验证
写作质量: ⭐⭐⭐⭐⭐ 行文逻辑清晰，从观察到方法的推导自然流畅，图表设计精良
价值: ⭐⭐⭐⭐⭐ 为AI安全中的能力移除提供了新的技术路径，具有直接的工业应用前景