Cross-Lingual Optimization for Language Transfer in Large Language Models
会议: ACL 2025
arXiv: 2505.14297
代码: 无
领域: LLM/NLP
关键词: cross-lingual transfer, DPO, multilingual, low-resource language, language adaptation, attention-only tuning
一句话总结
提出 Cross-Lingual Optimization (CLO),通过修改 DPO 损失函数实现跨语言偏好优化——给目标语言输入时偏好目标语言回复、给英语输入时偏好英语回复——在 5 个模型 × 6 种语言上一致超越 SFT,低资源语言中仅 3,200 样本的 CLO 即超越 6,400 样本的 SFT。
研究背景与动机
- 领域现状:英语为中心的 LLM(Llama、Mistral、Qwen 等)在其他语言上表现显著较差,标准做法是用目标语言指令数据做 SFT 进行语言迁移。
- 现有痛点:SFT 在数据稀缺场景下存在严重的"英语偏向"问题——模型可能理解了目标语言的输入,但仍然默认用英语回复(如 Llama3 Chat 可以理解斯瓦希里语但用英语作答)。对中低资源语言,SFT 的效果尤其不稳定。
- 核心矛盾:如何在保留模型英语能力的同时有效迁移到目标语言?SFT 会导致两难:英语数据过多则目标语言迁移不足,目标语言数据过多则英语能力退化,且低资源语言往往没有足够的高质量指令数据。
- 本文要解决什么:用可获取的英语 SFT 数据 + 翻译模型,在数据受限环境下实现高效跨语言迁移,同时保持英语性能。
- 切入角度:将问题从"学习目标语言知识"转化为"学习输入输出语言的对应关系"——抑制"目标语言输入→英语回复",增强"目标语言输入→目标语言回复",反之亦然。
- 核心 idea 一句话:用跨语言偏好对(同一问题的目标语言回复为 chosen、英语回复为 rejected)结合修改版 DPO 训练模型"用对的语言回复"。
方法详解
整体框架
英语 SFT 数据 \((x_{en}, y_{en})\) → 翻译模型(M2M100-1.2B)生成目标语言数据 \((x_\ell, y_\ell)\) → 构建跨语言偏好对 → CLO 损失 = \(\lambda \cdot \mathcal{L}_{SFT} + (1-\lambda) \cdot \mathcal{L}_{CL}\) → 仅微调 attention 层参数。
关键设计
1. 跨语言数据构建(Cross-Lingual Dataset Preparation)
- 做什么:将英语 SFT 数据翻译为目标语言,构建两组偏好对
- 为什么:让模型显式学习"输入语言-输出语言"的对应关系,而非仅学内容
- 怎么做:
- 英语输入 \(x_{en}\):chosen = \(y_{en}\)(英语回复),rejected = \(y_\ell\)(目标语言回复)→ 保持英语能力
- 目标语言输入 \(x_\ell\):chosen = \(y_\ell\)(目标语言回复),rejected = \(y_{en}\)(英语回复)→ 迁移目标语言能力
- 使用 M2M100-1.2B 翻译模型,从 6,400 条英语数据生成共 12,800 条跨语言对
2. CLO 损失函数(Cross-Lingual Optimization Loss)
- 做什么:结合 NLL 和修改版 DPO 的联合优化目标
- 为什么:基座模型本身不会回答查询,NLL 教会模型生成回复;修改版 DPO 教会模型选择正确语言
- 怎么做:
- \(\mathcal{L}_{CLO} = \lambda \cdot \mathcal{L}_{SFT} + (1-\lambda) \cdot \mathcal{L}_{CL}\)
- \(\mathcal{L}_{SFT}\):仅在目标语言输出上计算 NLL(关键设计:排除英语 NLL 以缓解英语偏差)
- \(\mathcal{L}_{CL}\):跨语言 DPO 损失,由两部分组成——英语输入时偏好英语回复抑制目标语言回复 + 目标语言输入时偏好目标语言回复抑制英语回复
- 消融实验验证:加入英语 NLL 会导致模型偏向英语输出(斯瓦希里语 Win Rate 从 83.0 降至 74.5)
3. 仅 Attention 层微调
- 做什么:CLO 训练中仅更新 attention 层参数,冻结其余层
- 为什么:基于 Zeping & Sophia (2024) 的发现,语言相关能力主要存储在 attention 层,重要神经元集中在深层
- 怎么做:仅对 Q/K/V/O 投影矩阵做梯度更新
- 效果:与全参数微调效果相当(中文/韩语 Win 率约 50:50),但训练 GPU 显存比 DPO 低约 30%,仅比 SFT 高约 55%
- 例外:斯瓦希里语等极低资源语言中 attention-only 训练性能显著低于全参数训练(Win 29.7% vs 70.3%),因为模型内嵌的语言知识不足
损失函数 / 训练策略
- 英语种子数据:OpenAssistant 前 6,400 条高排名单轮数据
- 翻译模型:M2M100-1.2B
- 训练目标:\(\mathcal{L}_{CLO}\) 联合损失
- 参考模型:基座模型自身(与 DPO 一致)
- 可训练参数:仅 attention 层
实验关键数据
主实验 1:AlpacaEval 指令跟随能力(Win Rate %,vs SFT 基线)
| 模型 |
中文(高) |
德语(高) |
韩语(中) |
印尼语(中) |
斯瓦希里语(低) |
约鲁巴语(低) |
| Llama3-8B CLO Δ |
+11.3 |
+2.9 |
+15.3 |
+1.5 |
+17.6 |
+11.6 |
| Llama2-7B CLO Δ |
+2.0 |
+9.2 |
+1.3 |
+5.0 |
+0.9 |
+23.6 |
| Llama2-13B CLO Δ |
+5.9 |
+3.2 |
+2.3 |
+9.3 |
+17.0 |
+23.8 |
| Mistral-7B CLO Δ |
+0.6 |
+0.9 |
+2.0 |
+1.1 |
+15.9 |
+0.2 |
| Qwen2.5-3B CLO Δ |
+5.7 |
+1.0 |
+10.1 |
+1.1 |
+23.0 |
+23.0 |
关键发现:CLO 在所有 30 个 (模型, 语言) 组合中均超越 SFT+DPO,低资源语言提升最显著(Δ 最高达 +23.8)。英语性能同步保持甚至提升。
主实验 2:BELEBELE 阅读理解准确率
| 模型 |
方法 |
斯瓦希里语 |
约鲁巴语 |
韩语 |
| Llama3-8B |
SFT |
42.0 |
29.6 |
46.7 |
| Llama3-8B |
CLO |
42.6 |
29.8 |
57.7 |
| Qwen2.5-3B |
SFT |
51.7 |
45.9 |
52.3 |
| Qwen2.5-3B |
CLO |
74.7 |
68.9 |
62.4 |
主实验 3:MMMLU 推理能力
| 模型 |
方法 |
中文 |
韩语 |
斯瓦希里语 |
英语 |
| Llama3-8B |
SFT |
39.36 |
25.31 |
27.59 |
53.00 |
| Llama3-8B |
CLO |
41.99 |
32.73 |
33.38 |
57.55 |
| Qwen2.5-3B |
SFT |
46.34 |
35.90 |
26.22 |
55.70 |
| Qwen2.5-3B |
CLO |
52.10 |
41.94 |
29.80 |
60.52 |
消融实验
| 消融配置 |
斯瓦希里语 Win Rate |
英语 Win Rate |
| CLO (NLL 仅目标语言, ours) |
83.0 |
65.4 |
| CLO (NLL 目标+英语) |
74.5 |
67.8 |
| Attention-only vs Full (Llama2) |
目标语言 Win% |
英语 Win% |
| 中文 |
50.7 vs 49.1 |
54.4 vs 45.6 |
| 韩语 |
52.7 vs 46.4 |
52.7 vs 47.3 |
| 斯瓦希里语 |
29.7 vs 69.6 |
50.1 vs 49.9 |
数据效率实验
| 训练数据量 |
SFT 斯瓦希里语 |
CLO 斯瓦希里语 |
| 1,600 对 |
远低于 6,400 SFT |
≈ 6,400 SFT |
| 3,200 对 |
仍低于 6,400 SFT |
> 6,400 SFT |
| 6,400 对 |
基线 |
远超基线 |
关键结论:CLO 在斯瓦希里语中仅用 1,600 对data即可匹配 SFT 使用 6,400 对的效果,数据效率提升 4 倍。
关键发现总结
- CLO 在所有语言和模型上一致优于 SFT,低资源语言优势最大(Δ 最高 +23.8%)
- 数据效率:CLO 3,200 > SFT 6,400(低资源);CLO 400 ≈ SFT 6,400(Llama3 斯瓦希里语)
- SFT 对低资源语言数据量极敏感(3,200→6,400 有巨大跳变),CLO 则平滑提升
- CLO 同时保持甚至提升英语能力,而 SFT 在加入目标语言数据后英语能力常退化
- NLL 仅算目标语言是关键设计,加入英语 NLL 会重新引入英语偏差
亮点与洞察
- 跨语言偏好对设计非常优雅——将"语言选择"问题转化为经典的偏好优化问题,利用翻译数据构建"语言正确性"偏好信号,无需任何人工标注
- 仅微调 attention 层是一个实用的发现,验证了语言能力主要存储在 attention 层的假说,大幅降低训练成本
- 低资源语言的数据效率提升对实际多语言部署有直接价值——很多语言连 1 万条高质量指令数据都难以获取
- "SFT 的英语偏向"的系统性论证:通过 SFT-eng、SFT-tgt、SFT 三个变体对比,清晰展示了 SFT 在中低资源语言中的失效模式
- Qwen2.5-3B 虽是最小模型但多语言迁移效果最好,说明预训练的多语言数据覆盖比模型大小更重要
局限性 / 可改进方向
- 仅支持单语言迁移:每次只能迁移到一种目标语言,不支持同时多语言迁移
- 依赖翻译模型质量:M2M100 翻译质量对低资源语言可能不佳,但论文论证 SFT 和 CLO 共享相同翻译数据,比较是公平的
- 语言特定评估不足:评估用的是翻译的 AlpacaEval/MMMLU,无法捕捉语言特异性文化语境
- 仅在 DPO 上验证:未探索 CLO 框架与其他偏好优化算法(KTO、SimPO 等)的兼容性
- Attention-only 对极低资源语言失效:斯瓦希里语中 attention-only 训练大幅落后全参数训练,需要自适应策略
- 改进方向:多语言同时迁移、与 KTO/SimPO 结合、自适应层选择策略、更强的翻译模型
相关工作与启发
- vs 标准 SFT(Lee et al. 2023; Shaham et al. 2024a):SFT 单纯通过最大似然模仿目标语言输出,无法显式学习语言选择策略;CLO 通过偏好优化教模型"选对语言",在低资源场景优势显著
- vs 继续预训练 + SFT(Cui et al. 2023; Zhao et al. 2024a):继续预训练需要大量目标语言语料(通常百万级),CLO 仅需 6,400 条翻译数据,成本差距巨大
- vs InstructionCP(Chen & Lee 2024):InstructionCP 需要大规模目标语言指令数据和复杂架构分析,CLO 仅需英语数据+翻译模型,且方法更简洁
评分
- 新颖性: ⭐⭐⭐⭐ 将 DPO 创新性应用于跨语言迁移,"语言选择偏好"的视角新颖;但核心技术(修改 DPO + NLL)并不复杂
- 实验充分度: ⭐⭐⭐⭐⭐ 5 模型 × 6 语言 × 3 评估基准,消融充分(NLL 变体、attention-only、数据量曲线),实验规模在该领域属上乘
- 写作质量: ⭐⭐⭐⭐ 两个假设清晰,方法推导严谨,图示直观;但 Limitations 部分写得过于冗长
- 价值: ⭐⭐⭐⭐⭐ 对低资源语言 LLM 部署有直接实用价值,方法简洁易复现,仅需公开英语数据+翻译模型