跳转至

SEUF: Is Unlearning One Expert Enough for Mixture-of-Experts LLMs?

会议: ACL 2025
arXiv: 2411.18797
代码: 无
领域: LLM / NLP
关键词: 机器遗忘, MoE, 专家路由, 参数高效, 知识删除

一句话总结

SEUF 首次揭示现有 LLM 遗忘方法在 MoE 模型上严重失效(效用下降 35%+),根因是遗忘过程导致路由器的专家选择漂移形成"捷径"——本该遗忘的目标专家被绕过而无辜专家被破坏,并提出通过专家归因定位目标专家+路由器锚定损失固定选择的框架,仅更新 0.06% 参数即可同时提升遗忘质量和模型效用。

研究背景与动机

领域现状:LLM 遗忘(Machine Unlearning)旨在从预训练模型中删除特定知识的影响(如有害信息、版权数据),同时保持模型在其他任务上的效用。现有方法包括梯度上升(GA)、梯度差异(GDiff)、负偏好优化(NPO)、表示误导(RMU)等,在密集 LLM 上已展示有效性。

现有痛点:MoE LLM(如 Mixtral、Qwen-MoE、DeepSeek-V2)是 LLM 家族的重要成员,但其遗忘问题完全未被研究。作者首次发现,将现有遗忘方法直接应用于 MoE LLM 会导致灾难性的效用下降(MMLU 下降超过 20%),同时遗忘效果也不佳。问题的根源在于 MoE 的动态路由机制:遗忘过程会改变专家参数,进而间接影响路由器的选择,使关键专家被绕过、非关键专家被误遗忘。

核心矛盾:MoE 的动态路由是其推理效率的核心优势,但在遗忘场景中成为致命弱点——路由器会创建"捷径"将输入导向不相关专家以降低遗忘损失,同时破坏这些无辜专家而保护了真正需要遗忘的目标专家。

本文目标 设计一种 MoE 专用的遗忘框架,通过定位目标专家、稳定路由选择、定向遗忘来实现可控且高效的知识删除。

切入角度:作者发现对于特定主题的遗忘目标,MoE 模型中只有少数专家(约 6-9 个/64 个)被高频激活(长尾分布)。SEUF 通过专家归因找到这些目标专家,用路由器锚定损失防止选择漂移,然后仅对目标专家应用遗忘算法。

核心 idea:通过专家归因定位目标专家 + 路由器锚定损失防止选择漂移 + 仅遗忘单个 top-1 专家,实现 MoE LLM 中可控、参数高效的知识删除。

方法详解

整体框架

SEUF 分为三步:(1)专家归因——收集遗忘集的路由器亲和分数,识别每层中被最高频激活的 top-M 目标专家;(2)参数选择——仅激活目标专家及其对应路由器的梯度;(3)遗忘+锚定——在标准遗忘损失的基础上添加路由器锚定损失,确保目标专家在整个遗忘过程中保持高激活状态。SEUF 是即插即用框架,可与任何现有遗忘算法(GA、GDiff、NPO、RMU)配合使用。

关键设计

  1. 专家归因(Expert Attribution):

    • 功能:在每一层识别与遗忘目标最相关的专家
    • 核心思路:从遗忘集采样子集,记录每个 token 在每层的路由亲和分数 \(s_{i,t}^{(l)}\),对所有 token 和样本取平均得到每个专家的归因分数,选择分数最高的 top-M 个作为目标专家
    • 设计动机:观察到遗忘集的路由选择呈长尾分布——少数专家承载大部分目标知识,精准定位这些专家可以避免误伤无关专家
  2. 路由器锚定损失(Router Anchor Loss):

    • 功能:防止遗忘过程中路由器漂移到非目标专家
    • 核心思路:对遗忘集中的每个 token,计算当前路由分布与预训练模型原始路由分布之间的 KL 散度,作为锚定损失加入总优化目标:\(L_{anchor} = \text{KL}(s^{(l)}_{orig} \| s^{(l)}_{current})\)。这确保即使专家参数被修改,路由器仍然将相关 token 导向目标专家
    • 设计动机:解决核心问题——路由器选择漂移。实验显示未加锚定时专家重叠率随遗忘迭代持续下降,加入锚定后保持稳定
  3. 定向参数遗忘:

    • 功能:将遗忘限制在极少量参数上,保护模型整体效用
    • 核心思路:仅对目标专家(每层 top-1)和其路由器启用梯度更新,FPN 其余 63/64 的专家参数完全冻结。消融显示 top-1 专家选择优于 top-2/top-3/随机
    • 设计动机:仅更新 0.06% 参数(vs LoRA 的 0.87% 或 ESFT 的 14%),极大降低了遗忘带来的效用损失

损失函数 / 训练策略

总损失 = 遗忘损失(如 GA 的梯度上升或 GDiff 的梯度差异等)+ 保留损失(保持在保留集上的性能)+ 锚定损失(稳定路由选择)。

实验关键数据

主实验

WMDP 基准上的 Qwen1.5-MoE 遗忘结果:

方法 Forget Efficacy ↓ Utility (MMLU) ↑ 说明
原始模型 0.4192 0.5979 无遗忘
GA 0.2953 0.3393 效用崩塌 -43%
GA + SEUF ~0.29 0.5012 效用恢复 +47.7%
GDiff + SEUF 0.2445 0.5295 最佳配置
NPO + SEUF ~0.32 0.5468
RMU + SEUF 0.2536 0.5351

消融实验

消融配置 Utility ↑ 说明
全参数遗忘 0.3393 基线(灾难性下降)
仅路由器 0.2977 更差
仅专家 0.3242 略好
SEUF top-1 0.5012 最佳
SEUF top-2 ~0.48 轻微下降
SEUF 随机专家 ~0.42 验证归因必要
SEUF 无锚定损失 ~0.44 验证锚定必要

关键发现

  • MoE 遗忘是独特挑战:四种遗忘算法在两个 MoE LLM 上均导致 20%+ 效用崩塌,而在密集模型上效用损失可控
  • 路由器漂移是根因:遗忘过程中专家选择重叠率持续下降(从 >90% 降到 <60%),说明路由器在创建"捷径"绕过目标专家
  • SEUF 的参数效率极高:仅更新 0.06% 参数即可恢复 35%+ 的效用,同时遗忘质量甚至有 5% 的提升
  • top-1 专家即够:遗忘单个 top-1 专家的效果优于 top-2/top-3,说明目标知识高度集中

亮点与洞察

  • 发现了 MoE 遗忘的"捷径"问题:这是一个非直觉但极具洞察力的发现——标准遗忘方法在 MoE 中不是遗忘太多而是遗忘错了对象,路由器的自适应性反而成为障碍
  • 锚定损失的精妙设计:不是固定路由器参数(实验发现固定路由器也无法阻止间接漂移),而是通过 KL 散度保持分布一致性
  • 即插即用的通用性:SEUF 可以与任何现有遗忘算法配合,不需要修改算法本身

局限与展望

  • 仅在 2 个标准基准(WMDP、RWKU)上验证:MoE 遗忘基准稀缺
  • 缺少更大 MoE 模型的验证:如 DeepSeek-R1、Mixtral 8×7B 完整参数实验受限于计算资源
  • 探讨不足:未分析哪些类型的知识更容易通过路由漂移逃逸

相关工作与启发

  • vs 密集 LLM 遗忘 (GA/GDiff/NPO/RMU):这些方法在密集模型上有效但在 MoE 上崩塌;SEUF 作为包装层让它们在 MoE 上也能工作
  • vs LoRA/ESFT 等参数高效方法:SEUF 仅更新 0.06% 参数,远低于 LoRA (0.87%) 和 ESFT (14%)

评分

  • 新颖性: ⭐⭐⭐⭐ 首次发现并分析 MoE 遗忘的独特挑战,路由器漂移洞察有深度
  • 实验充分度: ⭐⭐⭐⭐ 多模型/多算法/多基准,消融全面,但限于可用基准较少
  • 写作质量: ⭐⭐⭐⭐ 问题发现-根因分析-解决方案的叙事逻辑清晰
  • 价值: ⭐⭐⭐⭐ 填补了 MoE 遗忘的研究空白,对 MoE 模型安全治理有实践意义

相关论文