SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs?¶
会议: ACL 2025
arXiv: 2411.18797
代码: 无
领域: LLM / NLP
关键词: 机器遗忘, MoE, 专家路由, 参数高效, 知识删除
一句话总结¶
SEUF 首次揭示现有 LLM 遗忘方法在 MoE 模型上严重失效(效用下降 35%+),根因是遗忘过程导致路由器的专家选择漂移形成"捷径"——本该遗忘的目标专家被绕过而无辜专家被破坏,并提出通过专家归因定位目标专家+路由器锚定损失固定选择的框架,仅更新 0.06% 参数即可同时提升遗忘质量和模型效用。
研究背景与动机¶
领域现状:LLM 遗忘(Machine Unlearning)旨在从预训练模型中删除特定知识的影响(如有害信息、版权数据),同时保持模型在其他任务上的效用。现有方法包括梯度上升(GA)、梯度差异(GDiff)、负偏好优化(NPO)、表示误导(RMU)等,在密集 LLM 上已展示有效性。
现有痛点:MoE LLM(如 Mixtral、Qwen-MoE、DeepSeek-V2)是 LLM 家族的重要成员,但其遗忘问题完全未被研究。作者首次发现,将现有遗忘方法直接应用于 MoE LLM 会导致灾难性的效用下降(MMLU 下降超过 20%),同时遗忘效果也不佳。问题的根源在于 MoE 的动态路由机制:遗忘过程会改变专家参数,进而间接影响路由器的选择,使关键专家被绕过、非关键专家被误遗忘。
核心矛盾:MoE 的动态路由是其推理效率的核心优势,但在遗忘场景中成为致命弱点——路由器会创建"捷径"将输入导向不相关专家以降低遗忘损失,同时破坏这些无辜专家而保护了真正需要遗忘的目标专家。
本文目标 设计一种 MoE 专用的遗忘框架,通过定位目标专家、稳定路由选择、定向遗忘来实现可控且高效的知识删除。
切入角度:作者发现对于特定主题的遗忘目标,MoE 模型中只有少数专家(约 6-9 个/64 个)被高频激活(长尾分布)。SEUF 通过专家归因找到这些目标专家,用路由器锚定损失防止选择漂移,然后仅对目标专家应用遗忘算法。
核心 idea:通过专家归因定位目标专家 + 路由器锚定损失防止选择漂移 + 仅遗忘单个 top-1 专家,实现 MoE LLM 中可控、参数高效的知识删除。
方法详解¶
整体框架¶
SEUF 分为三步:(1)专家归因——收集遗忘集的路由器亲和分数,识别每层中被最高频激活的 top-M 目标专家;(2)参数选择——仅激活目标专家及其对应路由器的梯度;(3)遗忘+锚定——在标准遗忘损失的基础上添加路由器锚定损失,确保目标专家在整个遗忘过程中保持高激活状态。SEUF 是即插即用框架,可与任何现有遗忘算法(GA、GDiff、NPO、RMU)配合使用。
关键设计¶
-
专家归因(Expert Attribution):
- 功能:在每一层识别与遗忘目标最相关的专家
- 核心思路:从遗忘集采样子集,记录每个 token 在每层的路由亲和分数 \(s_{i,t}^{(l)}\),对所有 token 和样本取平均得到每个专家的归因分数,选择分数最高的 top-M 个作为目标专家
- 设计动机:观察到遗忘集的路由选择呈长尾分布——少数专家承载大部分目标知识,精准定位这些专家可以避免误伤无关专家
-
路由器锚定损失(Router Anchor Loss):
- 功能:防止遗忘过程中路由器漂移到非目标专家
- 核心思路:对遗忘集中的每个 token,计算当前路由分布与预训练模型原始路由分布之间的 KL 散度,作为锚定损失加入总优化目标:\(L_{anchor} = \text{KL}(s^{(l)}_{orig} \| s^{(l)}_{current})\)。这确保即使专家参数被修改,路由器仍然将相关 token 导向目标专家
- 设计动机:解决核心问题——路由器选择漂移。实验显示未加锚定时专家重叠率随遗忘迭代持续下降,加入锚定后保持稳定
-
定向参数遗忘:
- 功能:将遗忘限制在极少量参数上,保护模型整体效用
- 核心思路:仅对目标专家(每层 top-1)和其路由器启用梯度更新,FPN 其余 63/64 的专家参数完全冻结。消融显示 top-1 专家选择优于 top-2/top-3/随机
- 设计动机:仅更新 0.06% 参数(vs LoRA 的 0.87% 或 ESFT 的 14%),极大降低了遗忘带来的效用损失
损失函数 / 训练策略¶
总损失 = 遗忘损失(如 GA 的梯度上升或 GDiff 的梯度差异等)+ 保留损失(保持在保留集上的性能)+ 锚定损失(稳定路由选择)。
实验关键数据¶
主实验¶
WMDP 基准上的 Qwen1.5-MoE 遗忘结果:
| 方法 | Forget Efficacy ↓ | Utility (MMLU) ↑ | 说明 |
|---|---|---|---|
| 原始模型 | 0.4192 | 0.5979 | 无遗忘 |
| GA | 0.2953 | 0.3393 | 效用崩塌 -43% |
| GA + SEUF | ~0.29 | 0.5012 | 效用恢复 +47.7% |
| GDiff + SEUF | 0.2445 | 0.5295 | 最佳配置 |
| NPO + SEUF | ~0.32 | 0.5468 | |
| RMU + SEUF | 0.2536 | 0.5351 |
消融实验¶
| 消融配置 | Utility ↑ | 说明 |
|---|---|---|
| 全参数遗忘 | 0.3393 | 基线(灾难性下降) |
| 仅路由器 | 0.2977 | 更差 |
| 仅专家 | 0.3242 | 略好 |
| SEUF top-1 | 0.5012 | 最佳 |
| SEUF top-2 | ~0.48 | 轻微下降 |
| SEUF 随机专家 | ~0.42 | 验证归因必要 |
| SEUF 无锚定损失 | ~0.44 | 验证锚定必要 |
关键发现¶
- MoE 遗忘是独特挑战:四种遗忘算法在两个 MoE LLM 上均导致 20%+ 效用崩塌,而在密集模型上效用损失可控
- 路由器漂移是根因:遗忘过程中专家选择重叠率持续下降(从 >90% 降到 <60%),说明路由器在创建"捷径"绕过目标专家
- SEUF 的参数效率极高:仅更新 0.06% 参数即可恢复 35%+ 的效用,同时遗忘质量甚至有 5% 的提升
- top-1 专家即够:遗忘单个 top-1 专家的效果优于 top-2/top-3,说明目标知识高度集中
亮点与洞察¶
- 发现了 MoE 遗忘的"捷径"问题:这是一个非直觉但极具洞察力的发现——标准遗忘方法在 MoE 中不是遗忘太多而是遗忘错了对象,路由器的自适应性反而成为障碍
- 锚定损失的精妙设计:不是固定路由器参数(实验发现固定路由器也无法阻止间接漂移),而是通过 KL 散度保持分布一致性
- 即插即用的通用性:SEUF 可以与任何现有遗忘算法配合,不需要修改算法本身
局限与展望¶
- 仅在 2 个标准基准(WMDP、RWKU)上验证:MoE 遗忘基准稀缺
- 缺少更大 MoE 模型的验证:如 DeepSeek-R1、Mixtral 8×7B 完整参数实验受限于计算资源
- 探讨不足:未分析哪些类型的知识更容易通过路由漂移逃逸
相关工作与启发¶
- vs 密集 LLM 遗忘 (GA/GDiff/NPO/RMU):这些方法在密集模型上有效但在 MoE 上崩塌;SEUF 作为包装层让它们在 MoE 上也能工作
- vs LoRA/ESFT 等参数高效方法:SEUF 仅更新 0.06% 参数,远低于 LoRA (0.87%) 和 ESFT (14%)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次发现并分析 MoE 遗忘的独特挑战,路由器漂移洞察有深度
- 实验充分度: ⭐⭐⭐⭐ 多模型/多算法/多基准,消融全面,但限于可用基准较少
- 写作质量: ⭐⭐⭐⭐ 问题发现-根因分析-解决方案的叙事逻辑清晰
- 价值: ⭐⭐⭐⭐ 填补了 MoE 遗忘的研究空白,对 MoE 模型安全治理有实践意义
相关论文¶
- [ACL 2025] ReLearn: Unlearning via Learning for Large Language Models
- [ACL 2025] Towards Context-Robust LLMs: A Gated Representation Fine-tuning Approach
- [ACL 2025] ZJUKLAB at SemEval-2025 Task 4: Unlearning via Model Merging
- [ACL 2025] CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP
- [ACL 2025] HD-NDEs: Neural Differential Equations for Hallucination Detection in LLMs