Decoding Knowledge Attribution in Mixture-of-Experts: A Framework of Basic-Refinement Collaboration and Efficiency Analysis¶

会议: ACL2025
arXiv: 2505.24593
作者: Junzhuo Li, Bo Wang, Xiuze Zhou, Peijie Jiang, Jia Liu, Xuming Hu (HKUST(GZ), Ant Group) 领域: others
关键词: Mixture-of-Experts, 知识归因, 可解释性, 专家协作, 稀疏路由

一句话总结¶

提出跨层级知识归因算法，系统解析 MoE 模型中共享专家与路由专家的"基础-精炼"协作框架，揭示 MoE 相比稠密模型实现 31% 更高的逐层效率，并通过语义驱动路由机制（注意力头-专家相关性 r=0.68）和专家阻断实验验证了架构深度对鲁棒性的决定性影响。

研究背景与动机¶

Mixture-of-Experts (MoE) 通过稀疏激活子集专家降低计算开销，但其可解释性——特别是异构设计（如共享专家模块）中专家如何协作处理和精炼知识——仍是未解难题。

现有方法的不足： - 现有知识归因方法（Knowledge Neurons、Transformer FFN 分析等）针对稠密模型设计，无法捕捉 MoE 中动态路由-专家的交互 - 缺乏对异构 MoE 架构的对比研究，共享专家的功能假设（"通用特征提取器"还是"冗余备份"）缺乏实证验证 - 跨层级的专家协作机制不透明，阻碍了 MoE 模型的系统优化

核心问题： 专家在 MoE 模型中如何协同处理和精炼知识？共享专家与路由专家各扮演什么角色？架构深度如何影响鲁棒性？

方法详解¶

跨层级知识归因算法¶

将稠密模型的神经元级归因方法扩展到 MoE，同时分析宏观架构行为和微观专家贡献。

MoE 专家神经元的重要性评分：

对于第 \(l\) 层专家 \(\mathcal{E}_j\) 的神经元 \(\mathbf{v}^l_{\mathcal{E}_j}\)，重要性评分定义为加入该神经元后对目标 token 预测对数概率的增益。其中 \(g^l_{i,j}\) 为门控概率，\(\mathbf{u}^l\) 为注意力输出后的中间表征。该评分衡量每个专家神经元对最终预测的影响，即该模块在推理过程中引入的增益。

实验设计¶

MoE 模型： Qwen 1.5-MoE (24层, 64专家+4共享)、OLMoE (16层, 64专家)、Mixtral-8x7B (32层, 8专家) 稠密模型对照： Qwen 1.5-7B (32层)、Llama-7B (32层)、Mistral-7B (32层) 评估指标： HIT@10、MRR（知识预测任务）、逐层效率（FFN Gain / 层数）

"基础-精炼"协作框架¶

通过消融实验验证共享专家和路由专家的角色分工：

共享专家 = 通用基础处理器：负责实体识别、句法解析等跨领域基础任务
路由专家 = 领域精炼器：在共享专家提供基础表征后，进行领域特定的属性关联（如将"Canada"映射到"Ottawa"）
语义驱动路由：注意力头与专家选择存在强时间相关性（r=0.68, p<0.001），注意力头主动引导专家选择

三阶段处理模式（以 Qwen 1.5-MoE 为例）¶

早期（1-13层）：专家并行初始化，提取基础特征，贡献 6.1% 总增益
中期（14-19层）：动态路由激活专家筛选（top-4 门控），贡献 43.5% 总增益
后期（20-24层）：共享专家与路由专家协作精炼，贡献 50.4% 总增益

因果验证¶

三项干预实验确认注意力头因果性地驱动专家选择： - 抑制关键注意力头 → top-4 专家门控概率下降 54%，MRR 下降 29% - 强制激活正确专家 → 恢复 85% 原始 MRR - 积分梯度路径分析 → 28% 专家激活归因可直接追溯到特定注意力头

实验关键数据¶

Table 1: 稠密模型与 MoE 模型的效率对比¶

模型	HIT@10	MRR	FFN Gain	Attn Gain	Peak Gain 位置	逐层效率
Llama-7B	0.90	0.70	5.16	4.03	77.6%	0.161
Qwen 1.5-7B	0.79	0.62	6.49	4.14	90.2%	0.203
Mistral-7B	0.88	0.71	6.74	2.96	83.2%	0.211
Qwen 1.5-MoE	0.85	0.63	7.36	3.18	84.8%	0.307
OLMoE	0.83	0.64	4.98	4.40	84.6%	0.311
Mixtral-8x7B	0.90	0.73	6.79	3.03	83.3%	0.212

发现： MoE 模型逐层效率显著优于稠密模型。Qwen 1.5-MoE 用 24 层达到 0.307 效率，比 32 层的 Qwen 1.5-7B（0.203）高 51%。OLMoE 16 层即达 0.311 最高效率。MoE 模型中 FFN Gain 占主导，说明专家网络是知识处理核心。

Table 5: 专家阻断实验——鲁棒性对比（MRR）¶

任务	模型	原始	阻断Top1	阻断Top5	阻断Top10
name_birthplace	Qwen 1.5-MoE	0.85	0.84	0.83	0.81
name_birthplace	OLMoE	0.82	0.80	0.80	0.60
country_capital	Qwen 1.5-MoE	0.71	0.68	0.68	0.40
country_capital	OLMoE	1.00	1.00	0.76	0.76
country_language	Qwen 1.5-MoE	0.94	0.92	0.92	0.92
country_language	OLMoE	0.96	0.92	0.87	0.68
fruit_inside_color	Qwen 1.5-MoE	0.74	0.68	0.63	0.60
fruit_inside_color	OLMoE	0.76	0.60	0.52	0.41
object_superclass	Qwen 1.5-MoE	0.83	0.82	0.80	0.79
object_superclass	OLMoE	0.80	0.75	0.70	0.66

发现： 深层 Qwen 1.5-MoE 在通用任务上表现出强鲁棒性（name_birthplace 阻断 Top10 仅下降 4.7%），但核心敏感任务（country_capital）下降 43%。浅层 OLMoE 在多数任务上退化严重：fruit_inside_color 下降 46%、country_language 下降 29%。这验证了架构深度与共享专家对冗余设计的关键作用。

Table 2: Qwen 1.5-MoE 消融实验¶

配置	HIT@10	MRR
仅 Top1 路由专家	0	0
仅 Top2 路由专家	0	0
仅共享专家	0.03	0.01
共享 + Top1	0.82	0.59
共享 + Top2	0.83	0.63
共享 + Top4（默认）	0.85	0.63

发现： 单独激活任何类型的专家均导致严重退化，证明复杂知识任务必须依赖共享专家与路由专家的协同。存在"有效专家阈值"——核心知识主要由少量专家捕获，增加更多专家收益递减。

亮点¶

首个 MoE 可解释性系统框架：提出跨层级归因算法，弥补了稀疏 MoE 架构在可解释性方面的空白，可同时分析宏观架构行为和微观专家贡献
"基础-精炼"协作范式：通过消融实验严格验证共享专家作为通用处理器、路由专家作为领域精炼器的角色分工，并通过因果干预证实注意力头驱动专家选择
任务敏感性洞察：区分了"核心敏感任务"（地理推理，需集中专业知识）和"分布容忍任务"（物体属性，可利用广泛参与），为 MoE 设计提供定量指导
可操作的设计原则：深层 MoE 应在早期层部署共享专家保障冗余，晚期层分配路由专家进行精炼；浅层 MoE 需在专家通用性和路由适应性间取得平衡

局限性¶

分析仅限 7B 参数规模的静态路由 MoE，更大规模（100B+）或完全动态路由 MoE 是否展现相同专业化模式尚未验证
未涵盖检索增强型 MoE（如 Monet），其外部知识耦合引入的混杂因素超出分析范围
知识归因方法依赖对数概率变化，对多步推理或组合推理等复杂场景的解释力有待探索
实验数据集以事实性知识预测为主，对需要更高层抽象推理的任务（如数学推理、代码生成）的泛化性未充分评估

评分¶

新颖性: ⭐⭐⭐⭐ — 首个系统性的 MoE 知识归因框架，"基础-精炼"协作范式和语义驱动路由机制是有意义的发现
实验充分度: ⭐⭐⭐⭐ — 3 个 MoE + 3 个稠密模型对比，消融实验+因果干预+专家阻断，多角度验证充分
写作质量: ⭐⭐⭐⭐ — 结构清晰，分析层次分明，但数学符号较多，部分实验细节需翻阅附录
价值: ⭐⭐⭐⭐ — 为 MoE 架构设计提供了可操作的原则（深度-冗余-任务敏感性），对理解和优化 DeepSeek-V3 等大规模 MoE 有启发意义