Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts¶

会议: ACL 2025
arXiv: 2505.22582
代码: https://github.com/XZhang00/LayerMoE
领域: LLM效率
关键词: multilingual expansion, MoE, layer-wise expert allocation, catastrophic forgetting, continual learning

一句话总结¶

分析 LLM 不同层间的跨语言表征相似度，提出 LayerMoE 按层分配不同数量的新语言专家（高相似层少分配、低相似层多分配），用 60% 更少的专家参数超越 SOTA，并通过在高相似层添加路由分类器进一步缓解灾难性遗忘。

研究背景与动机¶

领域现状：持续扩展新语言是构建多语言 LLM 的可持续方案。MoE-LPR 通过添加新专家学新语言，冻结旧专家防止遗忘，但每层均匀添加专家导致参数膨胀严重（如 1.8B 模型扩展 3 种语言后变为 3.2x 大）。
现有痛点：(1) 均匀分配专家效率低、参数成本高。(2) 即使用 LPR 损失引导旧语言路由，旧语言性能仍显著下降。(3) 终身学习场景中参数增长不可持续。
核心矛盾：不同层的语言特异性不同——有些层天然是语言无关的（不需要新专家），有些层是语言特异的（需要专家来适配）。均匀分配忽略了这种异质性。
本文要解决什么？ (1) 如何高效分配专家数量？ (2) 如何进一步防止旧语言遗忘？
切入角度：分析 hidden states 在不同层的跨语言余弦相似度，发现中间层和最后几层相似度高（语言无关），0-4 层和 17-21 层相似度低（语言特异）。用相似度的逆作为专家分配指标。
核心 idea 一句话：用层间跨语言表征相似度的逆来自动分配各层专家数量，高相似层少分专家，低相似层多分专家。

方法详解¶

整体框架¶

Step 1: 计算各层新旧/新新语言表征相似度 → Step 2: 按相似度逆分配专家数 \(N^i = \lceil \frac{(S^i)^{-1}}{\sum (S^i)^{-1}} \times \delta \rceil\) → Stage 1: 冻结旧专家训练新专家 → Step 3: 在高相似层添加路由分类器 → Stage 2: 用 LPR + 分类器损失恢复旧语言。

关键设计¶

层间相似度分析:
对新旧语言各采样 100K token，计算各层注意力后 hidden states 的平均余弦相似度。
发现：中间层和最后几层相似度高（~0.7-0.9），0-4 层和 17-21 层相似度低（~0.3-0.5）。
高相似度 = 语言无关信息 → 不需要新专家；低相似度 = 语言特异信息 → 需要新专家。
路由分类器:
在高相似层（路由容易在新旧语言间混淆的层）的路由网络前添加二分类器 \(W_c\)。
用交叉熵损失训练分类器判断 token 属于旧语言还是新语言。若为旧语言，强制路由到旧专家。
设计动机：高相似层中 hidden states 太相似，简单的线性路由网络无法区分，需要显式分类器辅助。

实验关键数据¶

主实验（单次扩展：英文 → 添加 Bengali+Greek）¶

方法	新语言性能	旧语言保持	专家参数
MoE-LPR (均匀分配)	基线	基线	100%
LayerMoE	更好	更好	40% (-60%)

消融实验¶

配置	新语言	旧语言	说明
LayerMoE (完整)	最优	最优	60% 更少专家
无分类器	好	下降	分类器对保持旧语言关键
均匀分配 (原始)	中等	中等	参数多但效果不如
终身扩展 (3组语言)	最优	最优	33.3% 更少专家

关键发现¶

60% 更少专家反而更好：证明均匀分配存在严重浪费。
分类器有效防止旧语言下降：在高相似层的分类器显著改善路由准确性。
终身扩展场景同样有效：参数效率优势在多次扩展中累积。

亮点与洞察¶

表征相似度作为专家分配指标简洁有力：不需要复杂搜索，直接用可度量的层间相似度指导架构设计。
层级异质性的发现与已有解释性研究一致：底层和部分高层捕获语言特异特征，中间层是语言无关的。

局限性 / 可改进方向¶

仅在 Qwen1.5-1.8B 上实验，更大模型的效果未验证。
分类器阈值 K 需要手动选择。
相似度计算需要各语言的数据样本，冷启动场景可能受限。

评分¶

新颖性: ⭐⭐⭐⭐ 层级相似度驱动专家分配的思路新颖
实验充分度: ⭐⭐⭐⭐ 单次+终身扩展，消融充分
写作质量: ⭐⭐⭐⭐ 动机清晰，方法描述直观
价值: ⭐⭐⭐⭐ 对多语言 LLM 高效扩展实用性强