跳转至

Cross-Lingual Optimization for Language Transfer in Large Language Models

会议: ACL 2025
arXiv: 2505.14297
代码: 无
领域: LLM/NLP
关键词: cross-lingual transfer, DPO, multilingual, low-resource language, language adaptation, attention-only tuning

一句话总结

提出 Cross-Lingual Optimization (CLO),通过修改 DPO 损失函数实现跨语言偏好优化——给目标语言输入时偏好目标语言回复、给英语输入时偏好英语回复——在 5 个模型 × 6 种语言上一致超越 SFT,低资源语言中仅 3,200 样本的 CLO 即超越 6,400 样本的 SFT。

研究背景与动机

  1. 领域现状:英语为中心的 LLM(Llama、Mistral、Qwen 等)在其他语言上表现显著较差,标准做法是用目标语言指令数据做 SFT 进行语言迁移。
  2. 现有痛点:SFT 在数据稀缺场景下存在严重的"英语偏向"问题——模型可能理解了目标语言的输入,但仍然默认用英语回复(如 Llama3 Chat 可以理解斯瓦希里语但用英语作答)。对中低资源语言,SFT 的效果尤其不稳定。
  3. 核心矛盾:如何在保留模型英语能力的同时有效迁移到目标语言?SFT 会导致两难:英语数据过多则目标语言迁移不足,目标语言数据过多则英语能力退化,且低资源语言往往没有足够的高质量指令数据。
  4. 本文要解决什么:用可获取的英语 SFT 数据 + 翻译模型,在数据受限环境下实现高效跨语言迁移,同时保持英语性能。
  5. 切入角度:将问题从"学习目标语言知识"转化为"学习输入输出语言的对应关系"——抑制"目标语言输入→英语回复",增强"目标语言输入→目标语言回复",反之亦然。
  6. 核心 idea 一句话:用跨语言偏好对(同一问题的目标语言回复为 chosen、英语回复为 rejected)结合修改版 DPO 训练模型"用对的语言回复"。

方法详解

整体框架

英语 SFT 数据 \((x_{en}, y_{en})\) → 翻译模型(M2M100-1.2B)生成目标语言数据 \((x_\ell, y_\ell)\) → 构建跨语言偏好对 → CLO 损失 = \(\lambda \cdot \mathcal{L}_{SFT} + (1-\lambda) \cdot \mathcal{L}_{CL}\) → 仅微调 attention 层参数。

关键设计

1. 跨语言数据构建(Cross-Lingual Dataset Preparation)

  • 做什么:将英语 SFT 数据翻译为目标语言,构建两组偏好对
  • 为什么:让模型显式学习"输入语言-输出语言"的对应关系,而非仅学内容
  • 怎么做
  • 英语输入 \(x_{en}\):chosen = \(y_{en}\)(英语回复),rejected = \(y_\ell\)(目标语言回复)→ 保持英语能力
  • 目标语言输入 \(x_\ell\):chosen = \(y_\ell\)(目标语言回复),rejected = \(y_{en}\)(英语回复)→ 迁移目标语言能力
  • 使用 M2M100-1.2B 翻译模型,从 6,400 条英语数据生成共 12,800 条跨语言对

2. CLO 损失函数(Cross-Lingual Optimization Loss)

  • 做什么:结合 NLL 和修改版 DPO 的联合优化目标
  • 为什么:基座模型本身不会回答查询,NLL 教会模型生成回复;修改版 DPO 教会模型选择正确语言
  • 怎么做
  • \(\mathcal{L}_{CLO} = \lambda \cdot \mathcal{L}_{SFT} + (1-\lambda) \cdot \mathcal{L}_{CL}\)
  • \(\mathcal{L}_{SFT}\):仅在目标语言输出上计算 NLL(关键设计:排除英语 NLL 以缓解英语偏差)
  • \(\mathcal{L}_{CL}\):跨语言 DPO 损失,由两部分组成——英语输入时偏好英语回复抑制目标语言回复 + 目标语言输入时偏好目标语言回复抑制英语回复
  • 消融实验验证:加入英语 NLL 会导致模型偏向英语输出(斯瓦希里语 Win Rate 从 83.0 降至 74.5)

3. 仅 Attention 层微调

  • 做什么:CLO 训练中仅更新 attention 层参数,冻结其余层
  • 为什么:基于 Zeping & Sophia (2024) 的发现,语言相关能力主要存储在 attention 层,重要神经元集中在深层
  • 怎么做:仅对 Q/K/V/O 投影矩阵做梯度更新
  • 效果:与全参数微调效果相当(中文/韩语 Win 率约 50:50),但训练 GPU 显存比 DPO 低约 30%,仅比 SFT 高约 55%
  • 例外:斯瓦希里语等极低资源语言中 attention-only 训练性能显著低于全参数训练(Win 29.7% vs 70.3%),因为模型内嵌的语言知识不足

损失函数 / 训练策略

  • 英语种子数据:OpenAssistant 前 6,400 条高排名单轮数据
  • 翻译模型:M2M100-1.2B
  • 训练目标:\(\mathcal{L}_{CLO}\) 联合损失
  • 参考模型:基座模型自身(与 DPO 一致)
  • 可训练参数:仅 attention 层

实验关键数据

主实验 1:AlpacaEval 指令跟随能力(Win Rate %,vs SFT 基线)

模型 中文(高) 德语(高) 韩语(中) 印尼语(中) 斯瓦希里语(低) 约鲁巴语(低)
Llama3-8B CLO Δ +11.3 +2.9 +15.3 +1.5 +17.6 +11.6
Llama2-7B CLO Δ +2.0 +9.2 +1.3 +5.0 +0.9 +23.6
Llama2-13B CLO Δ +5.9 +3.2 +2.3 +9.3 +17.0 +23.8
Mistral-7B CLO Δ +0.6 +0.9 +2.0 +1.1 +15.9 +0.2
Qwen2.5-3B CLO Δ +5.7 +1.0 +10.1 +1.1 +23.0 +23.0

关键发现:CLO 在所有 30 个 (模型, 语言) 组合中均超越 SFT+DPO,低资源语言提升最显著(Δ 最高达 +23.8)。英语性能同步保持甚至提升。

主实验 2:BELEBELE 阅读理解准确率

模型 方法 斯瓦希里语 约鲁巴语 韩语
Llama3-8B SFT 42.0 29.6 46.7
Llama3-8B CLO 42.6 29.8 57.7
Qwen2.5-3B SFT 51.7 45.9 52.3
Qwen2.5-3B CLO 74.7 68.9 62.4

主实验 3:MMMLU 推理能力

模型 方法 中文 韩语 斯瓦希里语 英语
Llama3-8B SFT 39.36 25.31 27.59 53.00
Llama3-8B CLO 41.99 32.73 33.38 57.55
Qwen2.5-3B SFT 46.34 35.90 26.22 55.70
Qwen2.5-3B CLO 52.10 41.94 29.80 60.52

消融实验

消融配置 斯瓦希里语 Win Rate 英语 Win Rate
CLO (NLL 仅目标语言, ours) 83.0 65.4
CLO (NLL 目标+英语) 74.5 67.8
Attention-only vs Full (Llama2) 目标语言 Win% 英语 Win%
中文 50.7 vs 49.1 54.4 vs 45.6
韩语 52.7 vs 46.4 52.7 vs 47.3
斯瓦希里语 29.7 vs 69.6 50.1 vs 49.9

数据效率实验

训练数据量 SFT 斯瓦希里语 CLO 斯瓦希里语
1,600 对 远低于 6,400 SFT ≈ 6,400 SFT
3,200 对 仍低于 6,400 SFT > 6,400 SFT
6,400 对 基线 远超基线

关键结论:CLO 在斯瓦希里语中仅用 1,600 对data即可匹配 SFT 使用 6,400 对的效果,数据效率提升 4 倍。

关键发现总结

  • CLO 在所有语言和模型上一致优于 SFT,低资源语言优势最大(Δ 最高 +23.8%)
  • 数据效率:CLO 3,200 > SFT 6,400(低资源);CLO 400 ≈ SFT 6,400(Llama3 斯瓦希里语)
  • SFT 对低资源语言数据量极敏感(3,200→6,400 有巨大跳变),CLO 则平滑提升
  • CLO 同时保持甚至提升英语能力,而 SFT 在加入目标语言数据后英语能力常退化
  • NLL 仅算目标语言是关键设计,加入英语 NLL 会重新引入英语偏差

亮点与洞察

  • 跨语言偏好对设计非常优雅——将"语言选择"问题转化为经典的偏好优化问题,利用翻译数据构建"语言正确性"偏好信号,无需任何人工标注
  • 仅微调 attention 层是一个实用的发现,验证了语言能力主要存储在 attention 层的假说,大幅降低训练成本
  • 低资源语言的数据效率提升对实际多语言部署有直接价值——很多语言连 1 万条高质量指令数据都难以获取
  • "SFT 的英语偏向"的系统性论证:通过 SFT-eng、SFT-tgt、SFT 三个变体对比,清晰展示了 SFT 在中低资源语言中的失效模式
  • Qwen2.5-3B 虽是最小模型但多语言迁移效果最好,说明预训练的多语言数据覆盖比模型大小更重要

局限性 / 可改进方向

  • 仅支持单语言迁移:每次只能迁移到一种目标语言,不支持同时多语言迁移
  • 依赖翻译模型质量:M2M100 翻译质量对低资源语言可能不佳,但论文论证 SFT 和 CLO 共享相同翻译数据,比较是公平的
  • 语言特定评估不足:评估用的是翻译的 AlpacaEval/MMMLU,无法捕捉语言特异性文化语境
  • 仅在 DPO 上验证:未探索 CLO 框架与其他偏好优化算法(KTO、SimPO 等)的兼容性
  • Attention-only 对极低资源语言失效:斯瓦希里语中 attention-only 训练大幅落后全参数训练,需要自适应策略
  • 改进方向:多语言同时迁移、与 KTO/SimPO 结合、自适应层选择策略、更强的翻译模型

相关工作与启发

  • vs 标准 SFT(Lee et al. 2023; Shaham et al. 2024a):SFT 单纯通过最大似然模仿目标语言输出,无法显式学习语言选择策略;CLO 通过偏好优化教模型"选对语言",在低资源场景优势显著
  • vs 继续预训练 + SFT(Cui et al. 2023; Zhao et al. 2024a):继续预训练需要大量目标语言语料(通常百万级),CLO 仅需 6,400 条翻译数据,成本差距巨大
  • vs InstructionCP(Chen & Lee 2024):InstructionCP 需要大规模目标语言指令数据和复杂架构分析,CLO 仅需英语数据+翻译模型,且方法更简洁

评分

  • 新颖性: ⭐⭐⭐⭐ 将 DPO 创新性应用于跨语言迁移,"语言选择偏好"的视角新颖;但核心技术(修改 DPO + NLL)并不复杂
  • 实验充分度: ⭐⭐⭐⭐⭐ 5 模型 × 6 语言 × 3 评估基准,消融充分(NLL 变体、attention-only、数据量曲线),实验规模在该领域属上乘
  • 写作质量: ⭐⭐⭐⭐ 两个假设清晰,方法推导严谨,图示直观;但 Limitations 部分写得过于冗长
  • 价值: ⭐⭐⭐⭐⭐ 对低资源语言 LLM 部署有直接实用价值,方法简洁易复现,仅需公开英语数据+翻译模型