跳转至

📚 AI Paper Notes

Expert Divergence Learning for MoE-based Language Models

Expert Divergence Learning for MoE-based Language Models¶

会议: ICLR 2026
arXiv: 2603.00054
代码: 未公开
领域: 自监督学习 / LLM效率 / MoE
关键词: 混合专家, 专家同质化, 路由多样性, Jensen-Shannon散度, 领域特化

一句话总结¶

解决 MoE 训练中的专家同质化问题，通过最大化不同数据域之间路由分布的 Jensen-Shannon 散度，鼓励不同域激活不同专家子集，在 15B-A1.5B 模型上提升专家特化程度和语言建模性能。

研究背景与动机¶

领域现状：混合专家模型（MoE）通过稀疏激活实现高参数量低计算量，但训练中经常出现"专家同质化"——不同专家学到高度相似的功能，浪费了参数容量。
现有痛点：现有方法（如负载均衡损失）只确保专家被均匀使用，但不保证不同专家学到不同技能。专家可能均匀使用但功能相同。
核心矛盾：负载均衡和功能特化是不同的概念——均匀使用不等于各有专长。
核心idea一句话：不同数据域应该激活不同的专家组合——通过最大化域间路由分布的 JS 散度来鼓励专家特化。

方法详解¶

关键设计¶

三步聚合：token -> sequence -> domain 层次化聚合路由概率
JS 散度最大化：L_ED = 1/C(M,2) * sum_{j<k} -log(D_JS(p_j || p_k) + eps)，最大化域对之间的路由分布差异
标签驱动的辅助损失：利用数据的域标签来定义"哪些数据应该用不同专家"

实验关键数据¶

模型	方法	平均评分	说明
15B-A1.5B	基线	35.59	无ED损失
15B-A1.5B	+ED损失(49类)	36.65	49类域分类

关键发现¶

Layer 4 的专家特化程度远超其他层
49 类域分类比 8 类更有效，细粒度域标签帮助更大
专家特化峰值在中间层（Layer 3-5），与注意力模式分析一致
LM 损失持续改善，专家特化程度持续增强

亮点与洞察¶

从均衡到特化的范式转变：标准 MoE 训练关注负载均衡，本文关注功能特化，是更本质的目标。
域标签的利用：利用已有的数据域标签作为免费的监督信号来引导专家特化。
JS 散度的选择：对称且有界的 JS 散度比 KL 散度更适合衡量分布差异。

局限性 / 可改进方向¶

需要数据的域标签，纯无标签场景不直接适用
仅在一个模型大小（15B-A1.5B）上验证
域分类的粒度（49 vs 8）需要手工设定

评分¶

新颖性: ⭐⭐⭐⭐ 专家特化 via 域间散度最大化是新颖的角度
实验充分度: ⭐⭐⭐ 仅一个模型大小，验证不够充分
写作质量: ⭐⭐⭐⭐ 问题分析清晰
价值: ⭐⭐⭐⭐ 对 MoE 训练有实际指导