跳转至

Expert Divergence Learning for MoE-based Language Models

会议: ICLR 2026
arXiv: 2603.00054
代码: 未公开
领域: 自监督学习 / LLM效率 / MoE
关键词: 混合专家, 专家同质化, 路由多样性, Jensen-Shannon散度, 领域特化

一句话总结

解决 MoE 训练中的专家同质化问题,通过最大化不同数据域之间路由分布的 Jensen-Shannon 散度,鼓励不同域激活不同专家子集,在 15B-A1.5B 模型上提升专家特化程度和语言建模性能。

研究背景与动机

  1. 领域现状:混合专家模型(MoE)通过稀疏激活实现高参数量低计算量,但训练中经常出现"专家同质化"——不同专家学到高度相似的功能,浪费了参数容量。
  2. 现有痛点:现有方法(如负载均衡损失)只确保专家被均匀使用,但不保证不同专家学到不同技能。专家可能均匀使用但功能相同。
  3. 核心矛盾:负载均衡和功能特化是不同的概念——均匀使用不等于各有专长。
  4. 核心idea一句话:不同数据域应该激活不同的专家组合——通过最大化域间路由分布的 JS 散度来鼓励专家特化。

方法详解

关键设计

  1. 三步聚合:token -> sequence -> domain 层次化聚合路由概率
  2. JS 散度最大化:L_ED = 1/C(M,2) * sum_{j<k} -log(D_JS(p_j || p_k) + eps),最大化域对之间的路由分布差异
  3. 标签驱动的辅助损失:利用数据的域标签来定义"哪些数据应该用不同专家"

实验关键数据

模型 方法 平均评分 说明
15B-A1.5B 基线 35.59 无ED损失
15B-A1.5B +ED损失(49类) 36.65 49类域分类

关键发现

  • Layer 4 的专家特化程度远超其他层
  • 49 类域分类比 8 类更有效,细粒度域标签帮助更大
  • 专家特化峰值在中间层(Layer 3-5),与注意力模式分析一致
  • LM 损失持续改善,专家特化程度持续增强

亮点与洞察

  • 从均衡到特化的范式转变:标准 MoE 训练关注负载均衡,本文关注功能特化,是更本质的目标。
  • 域标签的利用:利用已有的数据域标签作为免费的监督信号来引导专家特化。
  • JS 散度的选择:对称且有界的 JS 散度比 KL 散度更适合衡量分布差异。

局限性 / 可改进方向

  • 需要数据的域标签,纯无标签场景不直接适用
  • 仅在一个模型大小(15B-A1.5B)上验证
  • 域分类的粒度(49 vs 8)需要手工设定

评分

  • 新颖性: ⭐⭐⭐⭐ 专家特化 via 域间散度最大化是新颖的角度
  • 实验充分度: ⭐⭐⭐ 仅一个模型大小,验证不够充分
  • 写作质量: ⭐⭐⭐⭐ 问题分析清晰
  • 价值: ⭐⭐⭐⭐ 对 MoE 训练有实际指导