跳转至

Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment

会议: ACL 2025
arXiv: 2407.14878
领域: LLM NLP
关键词: multilingual sentence encoders, modular training, curse of multilinguality, cross-lingual alignment, adapters

一句话总结

本文提出模块化多语言句子编码器训练方案:先训练语言特定模块(embedding + 语言适配器 + 句子编码适配器)缓解多语言诅咒,再训练跨语言对齐适配器同时使用平行和释义数据解决不同跨语言任务间的性能权衡,在 4 个任务和 23 种语言上全面优于单体模型训练。

研究背景与动机

  • 多语言句子编码器(MSE)将不同语言的句子映射到共享语义空间,广泛用于跨语言检索、聚类、分类
  • 两大核心问题
  • 多语言诅咒(CoM):参数共享导致各语言的单语表示精度下降,低资源语言尤其严重
  • 任务间的性能权衡
    • 跨语言对齐训练会破坏单语语义结构 → 单语 vs 跨语言性能冲突
    • 平行数据训练适合 bitext mining 但不适合语义相似度 → 不同跨语言任务间冲突
    • 释义数据训练适合语义相似度但不适合 bitext mining
  • 现有模块化方法(如 LASER3)仅解决部分问题,且教师模型本身已受 CoM 影响

方法详解

整体框架

三步模块化训练(每步仅更新对应模块参数):

  1. 语言适应(LA):为每种语言训练特定的 embedding 层 + LoRA 语言适配器
  2. 句子编码(SE)训练:在语言适配器之上叠加 LoRA SE 适配器,用单语释义数据训练
  3. 跨语言对齐(CLA):训练 parallel adapter,交替使用跨语言释义数据和平行数据

关键设计

语言适应: - 为每种语言训练专用 tokenizer - 使用 FOCUS 方法初始化新 embedding(复制已有 token 的嵌入,对新 token 用相似 token 插值) - 仅用 LoRA 进行 MLM 续训,参数高效

句子编码再训练: - MLM 目标会破坏预训练 MSE 的句子编码能力,因此需要 SE 再训练 - 使用 MNRL(Multiple Negative Ranking Loss)在机器翻译得到的单语释义数据上训练 - 冻结 LA 模块,仅更新 SE 适配器

跨语言对齐: - 以英语为枢纽语言进行双语对齐(英语嵌入质量最高,在金标释义数据上训练) - 交替训练:一个 batch 用跨语言释义对 + MNRL 损失,另一个 batch 用平行对 + cosine 相似度损失 - 使用 Parallel Adapter 防止对齐训练干扰单语 SE 能力 - 不为英语训练 CLA adapter:让其他语言适应英语空间

训练数据: - 将 5 个英语释义数据集(MNLI、SentenceCompression 等,共 ~60 万对)用 NLLB 3.3B 翻译到 22 种语言 - 利用多语平行释义数据同时构造释义对和平行对

实验关键数据

主实验

基于 LaBSE 的结果(23 种语言):

单语任务: | 模型设置 | STS ↑ | STR ↑ | 分类 ↑ | |---------|-------|-------|--------| | LaBSE 原始 | 76.7 | 69.2 | 82.7 | | Full_mc(最强单体) | 80.0 | 75.4 | 86.0 | | Mod_mc-jt(我们) | 83.9 | 79.0 | 86.4 |

跨语言任务: | 模型设置 | STS ↑ | 分类 ↑ | FLORES 挖掘 ↓ | Tatoeba 挖掘 ↓ | |---------|-------|--------|-------------|--------------| | LaBSE 原始 | 74.5 | 83.6 | 0.14 | 3.87 | | Full_c(最强跨语言单体)| 77.8 | 85.3 | 0.20 | 4.00 | | Mod_mc-jt(我们) | 81.4 | 86.7 | 0.10 | 3.12 |

对齐指标: - Language Bias(越低越好):Mod_mc-jt 在 STSB 上 0.49(vs Full_mc 0.53),在 SICK 上 0.65(vs 0.64) - RSIM(越高越好):Mod_mc-jt 达 0.79(vs Full_mc 0.77)

关键发现

  • 单语性能大幅提升:模块化方案在 STS 上比最强单体提升 3.9 个百分点(83.9 vs 80.0)
  • 跨语言全面超越:在 STS、分类、bitext mining 上同时达到最优,解决了任务间权衡
  • 低资源语言受益最大:语言特定模块有效缓解 CoM
  • MT 数据有效:仅用机器翻译的释义数据即可实现高质量训练
  • 交替训练释义+平行数据的 CLA 最优:仅用释义 (Mod_mc-pp) 在 bitext mining 上差,仅用平行 (Mod_mc-pl) 在 STS 上差
  • mE5 上同样有效:模块化方案在 mE5 基座上也带来一致的改进

亮点与洞察

  • 清晰地分解了 MSE 训练中的多个冲突:单语 vs 跨语言、STS vs bitext mining vs 分类
  • 用参数隔离(模块化)优雅地解决了冲突,每个模块专注一个职责
  • 以英语为枢纽的双语对齐策略简洁有效,避免了 N² 语言对的训练开销
  • 验证了 MT 数据可以完全替代人工标注的释义数据进行 MSE 训练,大幅降低数据获取成本
  • FOCUS 嵌入初始化 + LoRA 的组合使语言适应既高效又样本经济

局限性

  • 语言适应步骤(tokenizer 训练 + MLM 续训)对每种语言都需计算资源,扩展到数百种语言有成本
  • 推理时需要知道输入语言以激活对应模块(可用语言识别解决但增加延迟)
  • 仅在 LaBSE 和 mE5-base 上验证,更大模型(如 mE5-large)未测试
  • CLA 仅以英语为枢纽,对英语嵌入质量有强依赖
  • 交替训练的 batch 比例(释义 vs 平行)未做系统调参

相关工作

  • 多语言句子编码:LaBSE (Feng et al., 2022)、mE5 (Wang et al., 2024)、LASER3 (Heffernan et al., 2022)
  • 对抗多语言诅咒:语言适配器 (Pfeiffer et al., 2020, 2021)、FOCUS (Dobler & de Melo, 2023)
  • 参数高效微调:LoRA (Hu et al., 2022)、Parallel Adapter (He et al., 2022)
  • 对比学习句子嵌入:SimCSE (Gao et al., 2021)、mSimCSE (Wang et al., 2022)
  • 跨语言对齐:Reimers & Gurevych (2020)、Artetxe & Schwenk (2019)

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次系统用模块化方法同时解决 MSE 的 CoM 和任务间权衡
  • 技术深度: ⭐⭐⭐⭐ — 三步模块化设计严谨,每步有清晰的动机和实验验证
  • 实验充分性: ⭐⭐⭐⭐⭐ — 4 任务 × 23 语言 × 2 基座 × 多种变体对比,非常全面
  • 清晰度: ⭐⭐⭐⭐ — 结构清晰,图表辅助理解,变体命名系统
  • 影响力: ⭐⭐⭐⭐ — 对多语言 NLP 社区有直接指导价值,方案可推广