Expert Divergence Learning for MoE-based Language Models¶
会议: ICLR 2026
arXiv: 2603.00054
代码: 未公开
领域: 自监督学习 / LLM效率 / MoE
关键词: 混合专家, 专家同质化, 路由多样性, Jensen-Shannon散度, 领域特化
一句话总结¶
解决 MoE 训练中的专家同质化问题,通过最大化不同数据域之间路由分布的 Jensen-Shannon 散度,鼓励不同域激活不同专家子集,在 15B-A1.5B 模型上提升专家特化程度和语言建模性能。
研究背景与动机¶
- 领域现状:混合专家模型(MoE)通过稀疏激活实现高参数量低计算量,但训练中经常出现"专家同质化"——不同专家学到高度相似的功能,浪费了参数容量。
- 现有痛点:现有方法(如负载均衡损失)只确保专家被均匀使用,但不保证不同专家学到不同技能。专家可能均匀使用但功能相同。
- 核心矛盾:负载均衡和功能特化是不同的概念——均匀使用不等于各有专长。
- 核心idea一句话:不同数据域应该激活不同的专家组合——通过最大化域间路由分布的 JS 散度来鼓励专家特化。
方法详解¶
关键设计¶
- 三步聚合:token -> sequence -> domain 层次化聚合路由概率
- JS 散度最大化:L_ED = 1/C(M,2) * sum_{j<k} -log(D_JS(p_j || p_k) + eps),最大化域对之间的路由分布差异
- 标签驱动的辅助损失:利用数据的域标签来定义"哪些数据应该用不同专家"
实验关键数据¶
| 模型 | 方法 | 平均评分 | 说明 |
|---|---|---|---|
| 15B-A1.5B | 基线 | 35.59 | 无ED损失 |
| 15B-A1.5B | +ED损失(49类) | 36.65 | 49类域分类 |
关键发现¶
- Layer 4 的专家特化程度远超其他层
- 49 类域分类比 8 类更有效,细粒度域标签帮助更大
- 专家特化峰值在中间层(Layer 3-5),与注意力模式分析一致
- LM 损失持续改善,专家特化程度持续增强
亮点与洞察¶
- 从均衡到特化的范式转变:标准 MoE 训练关注负载均衡,本文关注功能特化,是更本质的目标。
- 域标签的利用:利用已有的数据域标签作为免费的监督信号来引导专家特化。
- JS 散度的选择:对称且有界的 JS 散度比 KL 散度更适合衡量分布差异。
局限性 / 可改进方向¶
- 需要数据的域标签,纯无标签场景不直接适用
- 仅在一个模型大小(15B-A1.5B)上验证
- 域分类的粒度(49 vs 8)需要手工设定
评分¶
- 新颖性: ⭐⭐⭐⭐ 专家特化 via 域间散度最大化是新颖的角度
- 实验充分度: ⭐⭐⭐ 仅一个模型大小,验证不够充分
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰
- 价值: ⭐⭐⭐⭐ 对 MoE 训练有实际指导