跳转至

Multilingual Routing in Mixture-of-Experts

会议: ICLR 2026 / arXiv: 2510.04694
代码: 待确认
领域: llm_alignment / MoE可解释性
关键词: mixture-of-experts, multilingual, routing analysis, expert steering, cross-lingual transfer

一句话总结

系统分析MoE LLM中多语言路由模式,发现中间层存在跨语言共享专家、语言性能与英语路由对齐度强相关,并提出推理时路由干预方法,通过激活英语任务专家在中间层一致性地提升多语言性能1-2%。

背景与动机

  1. MoE架构成为LLM扩展的主流范式,但其稀疏路由动态如何响应多语言数据尚不清楚
  2. Dense LLM研究已发现中间层存在语言无关表示空间,但MoE的稀疏激活是否呈现类似模式未被探索
  3. 预训练/后训练高度以英语为中心,多语言能力差距仍然显著
  4. MoE的离散专家激活天然适合分析模型哪些组件负责特定能力
  5. 理解多语言路由机制可指导改进跨语言迁移

方法

  • 路由散度分析: 使用FLoRes-200平行语料,计算每层非英语序列与英语序列的专家重要性分布的entropy-normalized JS散度
  • 模型覆盖: Qwen3-30B-A3B、Phi-3.5-MoE、GPT-OSS-20B、OLMoE四种MoE LLM
  • 专家识别: 计算每个专家在特定域/语言数据上相对通用基线(FLoRes)的激活频率差异 \(\Delta_k\),阈值 \(\tau\) 筛选特化专家
  • 路由干预: 软干预(\(z'_k \leftarrow z_k + \lambda \cdot s(z)\),加减标准差的倍数)和硬干预(强制设为最大/最小logit),在中间层激活英语任务专家

实验

发现 细节
U型路由散度 所有模型中,早/晚层路由语言特异,中间层路由跨语言高度对齐——清晰的U形曲线
语言性能相关性 语言理解能力(Belebele)与中间层路由对英语的对齐度强负相关(OLMoE: \(r\in[-0.95,-0.80]\)
语言-任务模块性 \(\tau\geq 0.3\)时,个专家同时特化于任务和多语言——完全分离的功能模块
MGSM干预 Qwen3: 76.4%→78.0%;GPT-OSS: 68.9%→71.5%;Phi-3.5: 57.5%→58.9%
Global-MMLU医学 Qwen3: 68.2%→69.1%;GPT-OSS: 63.8%→64.5%;Phi-3.5: 57.8%→58.8%
低资源语言 改善更明显(如Swahili MGSM: 52.4%→62.0% on GPT-OSS)
英语退化 干预几乎不影响英语性能(变化<1%),偶有轻微下降
对照实验 在中间层之外干预或针对多语言特化专家干预→性能下降

亮点

  • 首次系统揭示MoE LLM中的多语言路由动态,发现与dense模型一致的中间层语言无关空间
  • 语言-任务完全分离的模块性发现(\(\tau\geq 0.3\)时零交叉),为Mahowald等人的"语言与思维功能解耦"假说提供实证
  • 推理时简单路由干预即可一致性地提升3个模型×2个任务×15+语言的性能——方法极简但效果稳健
  • 干预仅修改1-2个专家的top-K选择,不改变大部分路由行为

局限性

  • 增益幅度较小(1-2%),需要大量语言样本才能确认统计显著性
  • 专家识别依赖于in-domain数据(GSM8K-Instruct/MedInstruct),数据选择对结果有影响
  • 分析和干预均在推理时进行,未探索训练时促进跨语言专家共享的方法
  • 仅覆盖4个MoE模型,更大规模或不同架构的MoE可能行为不同

相关工作

  • Kojima/Wendler/Bandarkar(2024-2025): Dense LLM中间层语言无关空间 → 本文在MoE中发现更清晰的模块化对应
  • Fayyaz et al.(2026): 专家激活/去激活干预 → 本文发现多语言上下文中激活任务专家有效
  • Mahowald et al.(2024): 语言与思维的功能解耦 → 本文语言-任务零交叉提供MoE实证

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐