Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts¶
会议: ACL 2025
arXiv: 2505.22582
代码: https://github.com/XZhang00/LayerMoE
领域: LLM效率
关键词: multilingual expansion, MoE, layer-wise expert allocation, catastrophic forgetting, continual learning
一句话总结¶
分析 LLM 不同层间的跨语言表征相似度,提出 LayerMoE 按层分配不同数量的新语言专家(高相似层少分配、低相似层多分配),用 60% 更少的专家参数超越 SOTA,并通过在高相似层添加路由分类器进一步缓解灾难性遗忘。
研究背景与动机¶
- 领域现状:持续扩展新语言是构建多语言 LLM 的可持续方案。MoE-LPR 通过添加新专家学新语言,冻结旧专家防止遗忘,但每层均匀添加专家导致参数膨胀严重(如 1.8B 模型扩展 3 种语言后变为 3.2x 大)。
- 现有痛点:(1) 均匀分配专家效率低、参数成本高。(2) 即使用 LPR 损失引导旧语言路由,旧语言性能仍显著下降。(3) 终身学习场景中参数增长不可持续。
- 核心矛盾:不同层的语言特异性不同——有些层天然是语言无关的(不需要新专家),有些层是语言特异的(需要专家来适配)。均匀分配忽略了这种异质性。
- 本文要解决什么? (1) 如何高效分配专家数量? (2) 如何进一步防止旧语言遗忘?
- 切入角度:分析 hidden states 在不同层的跨语言余弦相似度,发现中间层和最后几层相似度高(语言无关),0-4 层和 17-21 层相似度低(语言特异)。用相似度的逆作为专家分配指标。
- 核心 idea 一句话:用层间跨语言表征相似度的逆来自动分配各层专家数量,高相似层少分专家,低相似层多分专家。
方法详解¶
整体框架¶
Step 1: 计算各层新旧/新新语言表征相似度 → Step 2: 按相似度逆分配专家数 \(N^i = \lceil \frac{(S^i)^{-1}}{\sum (S^i)^{-1}} \times \delta \rceil\) → Stage 1: 冻结旧专家训练新专家 → Step 3: 在高相似层添加路由分类器 → Stage 2: 用 LPR + 分类器损失恢复旧语言。
关键设计¶
- 层间相似度分析:
- 对新旧语言各采样 100K token,计算各层注意力后 hidden states 的平均余弦相似度。
- 发现:中间层和最后几层相似度高(~0.7-0.9),0-4 层和 17-21 层相似度低(~0.3-0.5)。
-
高相似度 = 语言无关信息 → 不需要新专家;低相似度 = 语言特异信息 → 需要新专家。
-
路由分类器:
- 在高相似层(路由容易在新旧语言间混淆的层)的路由网络前添加二分类器 \(W_c\)。
- 用交叉熵损失训练分类器判断 token 属于旧语言还是新语言。若为旧语言,强制路由到旧专家。
- 设计动机:高相似层中 hidden states 太相似,简单的线性路由网络无法区分,需要显式分类器辅助。
实验关键数据¶
主实验(单次扩展:英文 → 添加 Bengali+Greek)¶
| 方法 | 新语言性能 | 旧语言保持 | 专家参数 |
|---|---|---|---|
| MoE-LPR (均匀分配) | 基线 | 基线 | 100% |
| LayerMoE | 更好 | 更好 | 40% (-60%) |
消融实验¶
| 配置 | 新语言 | 旧语言 | 说明 |
|---|---|---|---|
| LayerMoE (完整) | 最优 | 最优 | 60% 更少专家 |
| 无分类器 | 好 | 下降 | 分类器对保持旧语言关键 |
| 均匀分配 (原始) | 中等 | 中等 | 参数多但效果不如 |
| 终身扩展 (3组语言) | 最优 | 最优 | 33.3% 更少专家 |
关键发现¶
- 60% 更少专家反而更好:证明均匀分配存在严重浪费。
- 分类器有效防止旧语言下降:在高相似层的分类器显著改善路由准确性。
- 终身扩展场景同样有效:参数效率优势在多次扩展中累积。
亮点与洞察¶
- 表征相似度作为专家分配指标简洁有力:不需要复杂搜索,直接用可度量的层间相似度指导架构设计。
- 层级异质性的发现与已有解释性研究一致:底层和部分高层捕获语言特异特征,中间层是语言无关的。
局限性 / 可改进方向¶
- 仅在 Qwen1.5-1.8B 上实验,更大模型的效果未验证。
- 分类器阈值 K 需要手动选择。
- 相似度计算需要各语言的数据样本,冷启动场景可能受限。
相关工作与启发¶
- vs MoE-LPR: LayerMoE 用 60% 更少参数超越其在新旧语言上的表现。
- vs 语言特异/无关神经元研究: 本文将这些发现应用到 MoE 架构设计,是一个优雅的理论到实践的推广。
评分¶
- 新颖性: ⭐⭐⭐⭐ 层级相似度驱动专家分配的思路新颖
- 实验充分度: ⭐⭐⭐⭐ 单次+终身扩展,消融充分
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述直观
- 价值: ⭐⭐⭐⭐ 对多语言 LLM 高效扩展实用性强