Cross-Lingual Optimization for Language Transfer in Large Language Models¶

会议: ACL 2025
arXiv: 2505.14297
代码: 无
领域: LLM/NLP
关键词: cross-lingual transfer, DPO, multilingual, low-resource language, language adaptation, attention-only tuning

一句话总结¶

提出 Cross-Lingual Optimization (CLO)，通过修改 DPO 损失函数实现跨语言偏好优化——给目标语言输入时偏好目标语言回复、给英语输入时偏好英语回复——在 5 个模型 × 6 种语言上一致超越 SFT，低资源语言中仅 3,200 样本的 CLO 即超越 6,400 样本的 SFT。

研究背景与动机¶

领域现状：英语为中心的 LLM（Llama、Mistral、Qwen 等）在其他语言上表现显著较差，标准做法是用目标语言指令数据做 SFT 进行语言迁移。

现有痛点：SFT 在数据稀缺场景下存在严重的"英语偏向"问题——模型可能理解了目标语言的输入，但仍然默认用英语回复（如 Llama3 Chat 可以理解斯瓦希里语但用英语作答）。对中低资源语言，SFT 的效果尤其不稳定。

核心矛盾：如何在保留模型英语能力的同时有效迁移到目标语言？SFT 会导致两难：英语数据过多则目标语言迁移不足，目标语言数据过多则英语能力退化，且低资源语言往往没有足够的高质量指令数据。

本文目标：用可获取的英语 SFT 数据 + 翻译模型，在数据受限环境下实现高效跨语言迁移，同时保持英语性能。

切入角度：将问题从"学习目标语言知识"转化为"学习输入输出语言的对应关系"——抑制"目标语言输入→英语回复"，增强"目标语言输入→目标语言回复"，反之亦然。

核心 idea：用跨语言偏好对（同一问题的目标语言回复为 chosen、英语回复为 rejected）结合修改版 DPO 训练模型"用对的语言回复"。

方法详解¶

整体框架¶

英语 SFT 数据 \((x_{en}, y_{en})\) → 翻译模型（M2M100-1.2B）生成目标语言数据 \((x_\ell, y_\ell)\) → 构建跨语言偏好对 → CLO 损失 = \(\lambda \cdot \mathcal{L}_{SFT} + (1-\lambda) \cdot \mathcal{L}_{CL}\) → 仅微调 attention 层参数。

关键设计¶

1. 跨语言数据构建（Cross-Lingual Dataset Preparation）¶

功能：将英语 SFT 数据翻译为目标语言，构建两组偏好对
为什么：让模型显式学习"输入语言-输出语言"的对应关系，而非仅学内容
怎么做：
- 英语输入 \(x_{en}\)：chosen = \(y_{en}\)（英语回复），rejected = \(y_\ell\)（目标语言回复）→ 保持英语能力
- 目标语言输入 \(x_\ell\)：chosen = \(y_\ell\)（目标语言回复），rejected = \(y_{en}\)（英语回复）→ 迁移目标语言能力
- 使用 M2M100-1.2B 翻译模型，从 6,400 条英语数据生成共 12,800 条跨语言对

2. CLO 损失函数（Cross-Lingual Optimization Loss）¶

功能：结合 NLL 和修改版 DPO 的联合优化目标
为什么：基座模型本身不会回答查询，NLL 教会模型生成回复；修改版 DPO 教会模型选择正确语言
怎么做：
- \(\mathcal{L}_{CLO} = \lambda \cdot \mathcal{L}_{SFT} + (1-\lambda) \cdot \mathcal{L}_{CL}\)
- \(\mathcal{L}_{SFT}\)：仅在目标语言输出上计算 NLL（关键设计：排除英语 NLL 以缓解英语偏差）
- \(\mathcal{L}_{CL}\)：跨语言 DPO 损失，由两部分组成——英语输入时偏好英语回复抑制目标语言回复 + 目标语言输入时偏好目标语言回复抑制英语回复
- 消融实验验证：加入英语 NLL 会导致模型偏向英语输出（斯瓦希里语 Win Rate 从 83.0 降至 74.5）

3. 仅 Attention 层微调¶

功能：CLO 训练中仅更新 attention 层参数，冻结其余层
为什么：基于 Zeping & Sophia (2024) 的发现，语言相关能力主要存储在 attention 层，重要神经元集中在深层
怎么做：仅对 Q/K/V/O 投影矩阵做梯度更新
效果：与全参数微调效果相当（中文/韩语 Win 率约 50:50），但训练 GPU 显存比 DPO 低约 30%，仅比 SFT 高约 55%
例外：斯瓦希里语等极低资源语言中 attention-only 训练性能显著低于全参数训练（Win 29.7% vs 70.3%），因为模型内嵌的语言知识不足

损失函数 / 训练策略¶

英语种子数据：OpenAssistant 前 6,400 条高排名单轮数据
翻译模型：M2M100-1.2B
训练目标：\(\mathcal{L}_{CLO}\) 联合损失
参考模型：基座模型自身（与 DPO 一致）
可训练参数：仅 attention 层

实验关键数据¶

主实验 1：AlpacaEval 指令跟随能力（Win Rate %，vs SFT 基线）¶

模型	中文(高)	德语(高)	韩语(中)	印尼语(中)	斯瓦希里语(低)	约鲁巴语(低)
Llama3-8B CLO Δ	+11.3	+2.9	+15.3	+1.5	+17.6	+11.6
Llama2-7B CLO Δ	+2.0	+9.2	+1.3	+5.0	+0.9	+23.6
Llama2-13B CLO Δ	+5.9	+3.2	+2.3	+9.3	+17.0	+23.8
Mistral-7B CLO Δ	+0.6	+0.9	+2.0	+1.1	+15.9	+0.2
Qwen2.5-3B CLO Δ	+5.7	+1.0	+10.1	+1.1	+23.0	+23.0

关键发现：CLO 在所有 30 个 (模型, 语言) 组合中均超越 SFT+DPO，低资源语言提升最显著（Δ 最高达 +23.8）。英语性能同步保持甚至提升。

主实验 2：BELEBELE 阅读理解准确率¶

模型	方法	斯瓦希里语	约鲁巴语	韩语
Llama3-8B	SFT	42.0	29.6	46.7
Llama3-8B	CLO	42.6	29.8	57.7
Qwen2.5-3B	SFT	51.7	45.9	52.3
Qwen2.5-3B	CLO	74.7	68.9	62.4

主实验 3：MMMLU 推理能力¶

模型	方法	中文	韩语	斯瓦希里语	英语
Llama3-8B	SFT	39.36	25.31	27.59	53.00
Llama3-8B	CLO	41.99	32.73	33.38	57.55
Qwen2.5-3B	SFT	46.34	35.90	26.22	55.70
Qwen2.5-3B	CLO	52.10	41.94	29.80	60.52

消融实验¶

消融配置	斯瓦希里语 Win Rate	英语 Win Rate
CLO (NLL 仅目标语言, ours)	83.0	65.4
CLO (NLL 目标+英语)	74.5	67.8

Attention-only vs Full (Llama2)	目标语言 Win%	英语 Win%
中文	50.7 vs 49.1	54.4 vs 45.6
韩语	52.7 vs 46.4	52.7 vs 47.3
斯瓦希里语	29.7 vs 69.6	50.1 vs 49.9

数据效率实验¶

训练数据量	SFT 斯瓦希里语	CLO 斯瓦希里语
1,600 对	远低于 6,400 SFT	≈ 6,400 SFT
3,200 对	仍低于 6,400 SFT	> 6,400 SFT
6,400 对	基线	远超基线

关键结论：CLO 在斯瓦希里语中仅用 1,600 对data即可匹配 SFT 使用 6,400 对的效果，数据效率提升 4 倍。

关键发现总结¶

CLO 在所有语言和模型上一致优于 SFT，低资源语言优势最大（Δ 最高 +23.8%）
数据效率：CLO 3,200 > SFT 6,400（低资源）；CLO 400 ≈ SFT 6,400（Llama3 斯瓦希里语）
SFT 对低资源语言数据量极敏感（3,200→6,400 有巨大跳变），CLO 则平滑提升
CLO 同时保持甚至提升英语能力，而 SFT 在加入目标语言数据后英语能力常退化
NLL 仅算目标语言是关键设计，加入英语 NLL 会重新引入英语偏差

亮点与洞察¶

跨语言偏好对设计非常优雅——将"语言选择"问题转化为经典的偏好优化问题，利用翻译数据构建"语言正确性"偏好信号，无需任何人工标注
仅微调 attention 层是一个实用的发现，验证了语言能力主要存储在 attention 层的假说，大幅降低训练成本
低资源语言的数据效率提升对实际多语言部署有直接价值——很多语言连 1 万条高质量指令数据都难以获取
"SFT 的英语偏向"的系统性论证：通过 SFT-eng、SFT-tgt、SFT 三个变体对比，清晰展示了 SFT 在中低资源语言中的失效模式
Qwen2.5-3B 虽是最小模型但多语言迁移效果最好，说明预训练的多语言数据覆盖比模型大小更重要

局限与展望¶

仅支持单语言迁移：每次只能迁移到一种目标语言，不支持同时多语言迁移
依赖翻译模型质量：M2M100 翻译质量对低资源语言可能不佳，但论文论证 SFT 和 CLO 共享相同翻译数据，比较是公平的
语言特定评估不足：评估用的是翻译的 AlpacaEval/MMMLU，无法捕捉语言特异性文化语境
仅在 DPO 上验证：未探索 CLO 框架与其他偏好优化算法（KTO、SimPO 等）的兼容性
Attention-only 对极低资源语言失效：斯瓦希里语中 attention-only 训练大幅落后全参数训练，需要自适应策略
改进方向：多语言同时迁移、与 KTO/SimPO 结合、自适应层选择策略、更强的翻译模型

评分¶

新颖性: ⭐⭐⭐⭐ 将 DPO 创新性应用于跨语言迁移，"语言选择偏好"的视角新颖；但核心技术（修改 DPO + NLL）并不复杂
实验充分度: ⭐⭐⭐⭐⭐ 5 模型 × 6 语言 × 3 评估基准，消融充分（NLL 变体、attention-only、数据量曲线），实验规模在该领域属上乘
写作质量: ⭐⭐⭐⭐ 两个假设清晰，方法推导严谨，图示直观；但 Limitations 部分写得过于冗长
价值: ⭐⭐⭐⭐⭐ 对低资源语言 LLM 部署有直接实用价值，方法简洁易复现，仅需公开英语数据+翻译模型