Multilingual Routing in Mixture-of-Experts¶

会议: ICLR 2026 / arXiv: 2510.04694
代码: 待确认
领域: llm_alignment / MoE可解释性
关键词: mixture-of-experts, multilingual, routing analysis, expert steering, cross-lingual transfer

一句话总结¶

系统分析MoE LLM中多语言路由模式，发现中间层存在跨语言共享专家、语言性能与英语路由对齐度强相关，并提出推理时路由干预方法，通过激活英语任务专家在中间层一致性地提升多语言性能1-2%。

背景与动机¶

MoE架构成为LLM扩展的主流范式，但其稀疏路由动态如何响应多语言数据尚不清楚
Dense LLM研究已发现中间层存在语言无关表示空间，但MoE的稀疏激活是否呈现类似模式未被探索
预训练/后训练高度以英语为中心，多语言能力差距仍然显著
MoE的离散专家激活天然适合分析模型哪些组件负责特定能力
理解多语言路由机制可指导改进跨语言迁移

方法¶

路由散度分析: 使用FLoRes-200平行语料，计算每层非英语序列与英语序列的专家重要性分布的entropy-normalized JS散度
模型覆盖: Qwen3-30B-A3B、Phi-3.5-MoE、GPT-OSS-20B、OLMoE四种MoE LLM
专家识别: 计算每个专家在特定域/语言数据上相对通用基线(FLoRes)的激活频率差异 \(\Delta_k\)，阈值 \(\tau\) 筛选特化专家
路由干预: 软干预（\(z'_k \leftarrow z_k + \lambda \cdot s(z)\)，加减标准差的倍数）和硬干预（强制设为最大/最小logit），在中间层激活英语任务专家

实验¶

发现	细节
U型路由散度	所有模型中，早/晚层路由语言特异，中间层路由跨语言高度对齐——清晰的U形曲线
语言性能相关性	语言理解能力(Belebele)与中间层路由对英语的对齐度强负相关（OLMoE: \(r\in[-0.95,-0.80]\)）
语言-任务模块性	\(\tau\geq 0.3\)时，零个专家同时特化于任务和多语言——完全分离的功能模块
MGSM干预	Qwen3: 76.4%→78.0%；GPT-OSS: 68.9%→71.5%；Phi-3.5: 57.5%→58.9%
Global-MMLU医学	Qwen3: 68.2%→69.1%；GPT-OSS: 63.8%→64.5%；Phi-3.5: 57.8%→58.8%
低资源语言	改善更明显（如Swahili MGSM: 52.4%→62.0% on GPT-OSS）
英语退化	干预几乎不影响英语性能（变化<1%），偶有轻微下降
对照实验	在中间层之外干预或针对多语言特化专家干预→性能下降

亮点¶

首次系统揭示MoE LLM中的多语言路由动态，发现与dense模型一致的中间层语言无关空间
语言-任务完全分离的模块性发现（\(\tau\geq 0.3\)时零交叉），为Mahowald等人的"语言与思维功能解耦"假说提供实证
推理时简单路由干预即可一致性地提升3个模型×2个任务×15+语言的性能——方法极简但效果稳健
干预仅修改1-2个专家的top-K选择，不改变大部分路由行为

局限性¶

增益幅度较小（1-2%），需要大量语言样本才能确认统计显著性
专家识别依赖于in-domain数据（GSM8K-Instruct/MedInstruct），数据选择对结果有影响
分析和干预均在推理时进行，未探索训练时促进跨语言专家共享的方法
仅覆盖4个MoE模型，更大规模或不同架构的MoE可能行为不同

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐

Multilingual Routing in Mixture-of-Experts¶

一句话总结¶

背景与动机¶

方法¶

实验¶

亮点¶

局限性¶

相关工作¶

评分¶