SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs?¶

会议: ACL 2025
arXiv: 2411.18797
代码: 无
领域: LLM / NLP
关键词: 机器遗忘, MoE, 专家路由, 参数高效, 知识删除

一句话总结¶

SEUF 首次揭示现有 LLM 遗忘方法在 MoE 模型上严重失效（效用下降 35%+），根因是遗忘过程导致路由器的专家选择漂移形成"捷径"——本该遗忘的目标专家被绕过而无辜专家被破坏，并提出通过专家归因定位目标专家+路由器锚定损失固定选择的框架，仅更新 0.06% 参数即可同时提升遗忘质量和模型效用。

研究背景与动机¶

领域现状：LLM 遗忘（Machine Unlearning）旨在从预训练模型中删除特定知识的影响（如有害信息、版权数据），同时保持模型在其他任务上的效用。现有方法包括梯度上升（GA）、梯度差异（GDiff）、负偏好优化（NPO）、表示误导（RMU）等，在密集 LLM 上已展示有效性。

现有痛点：MoE LLM（如 Mixtral、Qwen-MoE、DeepSeek-V2）是 LLM 家族的重要成员，但其遗忘问题完全未被研究。作者首次发现，将现有遗忘方法直接应用于 MoE LLM 会导致灾难性的效用下降（MMLU 下降超过 20%），同时遗忘效果也不佳。问题的根源在于 MoE 的动态路由机制：遗忘过程会改变专家参数，进而间接影响路由器的选择，使关键专家被绕过、非关键专家被误遗忘。

核心矛盾：MoE 的动态路由是其推理效率的核心优势，但在遗忘场景中成为致命弱点——路由器会创建"捷径"将输入导向不相关专家以降低遗忘损失，同时破坏这些无辜专家而保护了真正需要遗忘的目标专家。

本文目标 设计一种 MoE 专用的遗忘框架，通过定位目标专家、稳定路由选择、定向遗忘来实现可控且高效的知识删除。

切入角度：作者发现对于特定主题的遗忘目标，MoE 模型中只有少数专家（约 6-9 个/64 个）被高频激活（长尾分布）。SEUF 通过专家归因找到这些目标专家，用路由器锚定损失防止选择漂移，然后仅对目标专家应用遗忘算法。

核心 idea：通过专家归因定位目标专家 + 路由器锚定损失防止选择漂移 + 仅遗忘单个 top-1 专家，实现 MoE LLM 中可控、参数高效的知识删除。

方法详解¶

整体框架¶

SEUF 分为三步：（1）专家归因——收集遗忘集的路由器亲和分数，识别每层中被最高频激活的 top-M 目标专家；（2）参数选择——仅激活目标专家及其对应路由器的梯度；（3）遗忘+锚定——在标准遗忘损失的基础上添加路由器锚定损失，确保目标专家在整个遗忘过程中保持高激活状态。SEUF 是即插即用框架，可与任何现有遗忘算法（GA、GDiff、NPO、RMU）配合使用。

关键设计¶

专家归因（Expert Attribution）:
- 功能：在每一层识别与遗忘目标最相关的专家
- 核心思路：从遗忘集采样子集，记录每个 token 在每层的路由亲和分数 \(s_{i,t}^{(l)}\)，对所有 token 和样本取平均得到每个专家的归因分数，选择分数最高的 top-M 个作为目标专家
- 设计动机：观察到遗忘集的路由选择呈长尾分布——少数专家承载大部分目标知识，精准定位这些专家可以避免误伤无关专家
路由器锚定损失（Router Anchor Loss）:
- 功能：防止遗忘过程中路由器漂移到非目标专家
- 核心思路：对遗忘集中的每个 token，计算当前路由分布与预训练模型原始路由分布之间的 KL 散度，作为锚定损失加入总优化目标：\(L_{anchor} = \text{KL}(s^{(l)}_{orig} \| s^{(l)}_{current})\)。这确保即使专家参数被修改，路由器仍然将相关 token 导向目标专家
- 设计动机：解决核心问题——路由器选择漂移。实验显示未加锚定时专家重叠率随遗忘迭代持续下降，加入锚定后保持稳定
定向参数遗忘:
- 功能：将遗忘限制在极少量参数上，保护模型整体效用
- 核心思路：仅对目标专家（每层 top-1）和其路由器启用梯度更新，FPN 其余 63/64 的专家参数完全冻结。消融显示 top-1 专家选择优于 top-2/top-3/随机
- 设计动机：仅更新 0.06% 参数（vs LoRA 的 0.87% 或 ESFT 的 14%），极大降低了遗忘带来的效用损失

损失函数 / 训练策略¶

总损失 = 遗忘损失（如 GA 的梯度上升或 GDiff 的梯度差异等）+ 保留损失（保持在保留集上的性能）+ 锚定损失（稳定路由选择）。

实验关键数据¶

主实验¶

WMDP 基准上的 Qwen1.5-MoE 遗忘结果：

方法	Forget Efficacy ↓	Utility (MMLU) ↑	说明
原始模型	0.4192	0.5979	无遗忘
GA	0.2953	0.3393	效用崩塌 -43%
GA + SEUF	~0.29	0.5012	效用恢复 +47.7%
GDiff + SEUF	0.2445	0.5295	最佳配置
NPO + SEUF	~0.32	0.5468
RMU + SEUF	0.2536	0.5351

消融实验¶

消融配置	Utility ↑	说明
全参数遗忘	0.3393	基线（灾难性下降）
仅路由器	0.2977	更差
仅专家	0.3242	略好
SEUF top-1	0.5012	最佳
SEUF top-2	~0.48	轻微下降
SEUF 随机专家	~0.42	验证归因必要
SEUF 无锚定损失	~0.44	验证锚定必要

关键发现¶

MoE 遗忘是独特挑战：四种遗忘算法在两个 MoE LLM 上均导致 20%+ 效用崩塌，而在密集模型上效用损失可控
路由器漂移是根因：遗忘过程中专家选择重叠率持续下降（从 >90% 降到 <60%），说明路由器在创建"捷径"绕过目标专家
SEUF 的参数效率极高：仅更新 0.06% 参数即可恢复 35%+ 的效用，同时遗忘质量甚至有 5% 的提升
top-1 专家即够：遗忘单个 top-1 专家的效果优于 top-2/top-3，说明目标知识高度集中

亮点与洞察¶

发现了 MoE 遗忘的"捷径"问题：这是一个非直觉但极具洞察力的发现——标准遗忘方法在 MoE 中不是遗忘太多而是遗忘错了对象，路由器的自适应性反而成为障碍
锚定损失的精妙设计：不是固定路由器参数（实验发现固定路由器也无法阻止间接漂移），而是通过 KL 散度保持分布一致性
即插即用的通用性：SEUF 可以与任何现有遗忘算法配合，不需要修改算法本身

局限与展望¶

仅在 2 个标准基准（WMDP、RWKU）上验证：MoE 遗忘基准稀缺
缺少更大 MoE 模型的验证：如 DeepSeek-R1、Mixtral 8×7B 完整参数实验受限于计算资源
探讨不足：未分析哪些类型的知识更容易通过路由漂移逃逸

评分¶

新颖性: ⭐⭐⭐⭐ 首次发现并分析 MoE 遗忘的独特挑战，路由器漂移洞察有深度
实验充分度: ⭐⭐⭐⭐ 多模型/多算法/多基准，消融全面，但限于可用基准较少
写作质量: ⭐⭐⭐⭐ 问题发现-根因分析-解决方案的叙事逻辑清晰
价值: ⭐⭐⭐⭐ 填补了 MoE 遗忘的研究空白，对 MoE 模型安全治理有实践意义