跳转至

Less, but Better: Efficient Multilingual Expansion for LLMs via Layer-wise Mixture-of-Experts

会议: ACL 2025
arXiv: 2505.22582
代码: https://github.com/XZhang00/LayerMoE
领域: LLM效率
关键词: multilingual expansion, MoE, layer-wise expert allocation, catastrophic forgetting, continual learning

一句话总结

分析 LLM 不同层间的跨语言表征相似度,提出 LayerMoE 按层分配不同数量的新语言专家(高相似层少分配、低相似层多分配),用 60% 更少的专家参数超越 SOTA,并通过在高相似层添加路由分类器进一步缓解灾难性遗忘。

研究背景与动机

  1. 领域现状:持续扩展新语言是构建多语言 LLM 的可持续方案。MoE-LPR 通过添加新专家学新语言,冻结旧专家防止遗忘,但每层均匀添加专家导致参数膨胀严重(如 1.8B 模型扩展 3 种语言后变为 3.2x 大)。
  2. 现有痛点:(1) 均匀分配专家效率低、参数成本高。(2) 即使用 LPR 损失引导旧语言路由,旧语言性能仍显著下降。(3) 终身学习场景中参数增长不可持续。
  3. 核心矛盾:不同层的语言特异性不同——有些层天然是语言无关的(不需要新专家),有些层是语言特异的(需要专家来适配)。均匀分配忽略了这种异质性。
  4. 本文要解决什么? (1) 如何高效分配专家数量? (2) 如何进一步防止旧语言遗忘?
  5. 切入角度:分析 hidden states 在不同层的跨语言余弦相似度,发现中间层和最后几层相似度高(语言无关),0-4 层和 17-21 层相似度低(语言特异)。用相似度的逆作为专家分配指标。
  6. 核心 idea 一句话:用层间跨语言表征相似度的逆来自动分配各层专家数量,高相似层少分专家,低相似层多分专家。

方法详解

整体框架

Step 1: 计算各层新旧/新新语言表征相似度 → Step 2: 按相似度逆分配专家数 \(N^i = \lceil \frac{(S^i)^{-1}}{\sum (S^i)^{-1}} \times \delta \rceil\) → Stage 1: 冻结旧专家训练新专家 → Step 3: 在高相似层添加路由分类器 → Stage 2: 用 LPR + 分类器损失恢复旧语言。

关键设计

  1. 层间相似度分析:
  2. 对新旧语言各采样 100K token,计算各层注意力后 hidden states 的平均余弦相似度。
  3. 发现:中间层和最后几层相似度高(~0.7-0.9),0-4 层和 17-21 层相似度低(~0.3-0.5)。
  4. 高相似度 = 语言无关信息 → 不需要新专家;低相似度 = 语言特异信息 → 需要新专家。

  5. 路由分类器:

  6. 在高相似层(路由容易在新旧语言间混淆的层)的路由网络前添加二分类器 \(W_c\)
  7. 用交叉熵损失训练分类器判断 token 属于旧语言还是新语言。若为旧语言,强制路由到旧专家。
  8. 设计动机:高相似层中 hidden states 太相似,简单的线性路由网络无法区分,需要显式分类器辅助。

实验关键数据

主实验(单次扩展:英文 → 添加 Bengali+Greek)

方法 新语言性能 旧语言保持 专家参数
MoE-LPR (均匀分配) 基线 基线 100%
LayerMoE 更好 更好 40% (-60%)

消融实验

配置 新语言 旧语言 说明
LayerMoE (完整) 最优 最优 60% 更少专家
无分类器 下降 分类器对保持旧语言关键
均匀分配 (原始) 中等 中等 参数多但效果不如
终身扩展 (3组语言) 最优 最优 33.3% 更少专家

关键发现

  • 60% 更少专家反而更好:证明均匀分配存在严重浪费。
  • 分类器有效防止旧语言下降:在高相似层的分类器显著改善路由准确性。
  • 终身扩展场景同样有效:参数效率优势在多次扩展中累积。

亮点与洞察

  • 表征相似度作为专家分配指标简洁有力:不需要复杂搜索,直接用可度量的层间相似度指导架构设计。
  • 层级异质性的发现与已有解释性研究一致:底层和部分高层捕获语言特异特征,中间层是语言无关的。

局限性 / 可改进方向

  • 仅在 Qwen1.5-1.8B 上实验,更大模型的效果未验证。
  • 分类器阈值 K 需要手动选择。
  • 相似度计算需要各语言的数据样本,冷启动场景可能受限。

相关工作与启发

  • vs MoE-LPR: LayerMoE 用 60% 更少参数超越其在新旧语言上的表现。
  • vs 语言特异/无关神经元研究: 本文将这些发现应用到 MoE 架构设计,是一个优雅的理论到实践的推广。

评分

  • 新颖性: ⭐⭐⭐⭐ 层级相似度驱动专家分配的思路新颖
  • 实验充分度: ⭐⭐⭐⭐ 单次+终身扩展,消融充分
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法描述直观
  • 价值: ⭐⭐⭐⭐ 对多语言 LLM 高效扩展实用性强