Multilingual Routing in Mixture-of-Experts¶
会议: ICLR 2026 / arXiv: 2510.04694
代码: 待确认
领域: llm_alignment / MoE可解释性
关键词: mixture-of-experts, multilingual, routing analysis, expert steering, cross-lingual transfer
一句话总结¶
系统分析MoE LLM中多语言路由模式,发现中间层存在跨语言共享专家、语言性能与英语路由对齐度强相关,并提出推理时路由干预方法,通过激活英语任务专家在中间层一致性地提升多语言性能1-2%。
背景与动机¶
- MoE架构成为LLM扩展的主流范式,但其稀疏路由动态如何响应多语言数据尚不清楚
- Dense LLM研究已发现中间层存在语言无关表示空间,但MoE的稀疏激活是否呈现类似模式未被探索
- 预训练/后训练高度以英语为中心,多语言能力差距仍然显著
- MoE的离散专家激活天然适合分析模型哪些组件负责特定能力
- 理解多语言路由机制可指导改进跨语言迁移
方法¶
- 路由散度分析: 使用FLoRes-200平行语料,计算每层非英语序列与英语序列的专家重要性分布的entropy-normalized JS散度
- 模型覆盖: Qwen3-30B-A3B、Phi-3.5-MoE、GPT-OSS-20B、OLMoE四种MoE LLM
- 专家识别: 计算每个专家在特定域/语言数据上相对通用基线(FLoRes)的激活频率差异 \(\Delta_k\),阈值 \(\tau\) 筛选特化专家
- 路由干预: 软干预(\(z'_k \leftarrow z_k + \lambda \cdot s(z)\),加减标准差的倍数)和硬干预(强制设为最大/最小logit),在中间层激活英语任务专家
实验¶
| 发现 | 细节 |
|---|---|
| U型路由散度 | 所有模型中,早/晚层路由语言特异,中间层路由跨语言高度对齐——清晰的U形曲线 |
| 语言性能相关性 | 语言理解能力(Belebele)与中间层路由对英语的对齐度强负相关(OLMoE: \(r\in[-0.95,-0.80]\)) |
| 语言-任务模块性 | \(\tau\geq 0.3\)时,零个专家同时特化于任务和多语言——完全分离的功能模块 |
| MGSM干预 | Qwen3: 76.4%→78.0%;GPT-OSS: 68.9%→71.5%;Phi-3.5: 57.5%→58.9% |
| Global-MMLU医学 | Qwen3: 68.2%→69.1%;GPT-OSS: 63.8%→64.5%;Phi-3.5: 57.8%→58.8% |
| 低资源语言 | 改善更明显(如Swahili MGSM: 52.4%→62.0% on GPT-OSS) |
| 英语退化 | 干预几乎不影响英语性能(变化<1%),偶有轻微下降 |
| 对照实验 | 在中间层之外干预或针对多语言特化专家干预→性能下降 |
亮点¶
- 首次系统揭示MoE LLM中的多语言路由动态,发现与dense模型一致的中间层语言无关空间
- 语言-任务完全分离的模块性发现(\(\tau\geq 0.3\)时零交叉),为Mahowald等人的"语言与思维功能解耦"假说提供实证
- 推理时简单路由干预即可一致性地提升3个模型×2个任务×15+语言的性能——方法极简但效果稳健
- 干预仅修改1-2个专家的top-K选择,不改变大部分路由行为
局限性¶
- 增益幅度较小(1-2%),需要大量语言样本才能确认统计显著性
- 专家识别依赖于in-domain数据(GSM8K-Instruct/MedInstruct),数据选择对结果有影响
- 分析和干预均在推理时进行,未探索训练时促进跨语言专家共享的方法
- 仅覆盖4个MoE模型,更大规模或不同架构的MoE可能行为不同
相关工作¶
- Kojima/Wendler/Bandarkar(2024-2025): Dense LLM中间层语言无关空间 → 本文在MoE中发现更清晰的模块化对应
- Fayyaz et al.(2026): 专家激活/去激活干预 → 本文发现多语言上下文中激活任务专家有效
- Mahowald et al.(2024): 语言与思维的功能解耦 → 本文语言-任务零交叉提供MoE实证
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐