Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs¶
会议: ACL 2025
arXiv: 2502.14830
代码: https://github.com/dannigt/mid-align
领域: LLM对齐 / 多语言
关键词: cross-lingual transfer, middle-layer alignment, contrastive learning, representation alignment, low-resource languages
一句话总结¶
通过分析 1000+ 语言对发现 LLM 中间层具有最强的跨语言对齐潜力,提出在任务训练中集成中间层对齐目标(对比损失),在槽填充(F1 61.7%)、机器翻译(BLEU 32.3)和结构化文本生成上显著提升跨语言迁移,对未见语言也有效。
研究背景与动机¶
- 领域现状:LLM 通过 SFT 在特定语言的特定任务上表现出色,但跨语言扩展受限于语言间性能差距和低资源语言缺乏微调数据。
- 现有痛点:(1) 之前的跨语言迁移研究主要关注分类任务,生成任务(输出长度可变)更具挑战;(2) 不清楚 LLM 的哪一层最适合做跨语言对齐;(3) 任务微调可能破坏预训练中已有的跨语言能力。
- 核心矛盾:任务特定微调保持但不增强语义对齐——需要显式对齐机制来提升跨语言迁移。
- 本文要解决什么:找到最优对齐位置 + 在任务训练中显式增强跨语言表示对齐。
- 切入角度:大规模分析 1000+ 语言对在不同层的表示相似性,数据驱动地确定中间层是最佳对齐位置。
- 核心 idea 一句话:在 LLM 中间层加入对比式跨语言对齐目标,交替优化任务损失和对齐损失。
方法详解¶
整体框架¶
两步:(1) 分析 LLM 各层的跨语言表示结构(用 mean-pooled hidden states 的 cosine 相似度);(2) 在任务训练中交替优化任务 loss 和中间层对齐 loss(对比学习),用平行翻译对作为正例。
关键设计¶
- 跨语言对齐分析 (1000+ 语言对):
- 做什么:在不同层计算平行句对的表示相似度,跨 1000+ 语言对统计
- 核心发现:中间层(约第 16-24 层)的跨语言语义对齐最强,底层和顶层对齐较弱
-
设计动机:数据驱动地确定最佳对齐位置,而非凭经验猜测
-
中间层对比对齐 (Contrastive Alignment):
- 做什么:在选定的中间层,用 mean-pooled hidden states 做对比学习—— 平行翻译对为正例,非翻译对为负例
- 核心思路:对比 loss 最大化翻译对的 cosine 相似度,最小化非翻译对的相似度
-
设计动机:与任务训练交替进行,不干扰任务学习的同时增强跨语言表示
-
模块化设计:
- 做什么:对齐模块和任务模块可分别训练,然后合并使用
- 设计动机:新语言发现时只需训练对齐模块,不用重做任务训练
损失函数 / 训练策略¶
交替优化:任务 loss(交叉熵)和对齐 loss(对比学习)。对齐只需少量平行数据(几千句对即可)。
实验关键数据¶
主实验¶
| 任务 | 模型 | 监督 | 跨语言迁移 | 基线跨语言 |
|---|---|---|---|---|
| 槽填充 (MASSIVE) | Llama 3 | 77.0 F1 | 61.7 F1 | ~55 F1 |
| 机器翻译 (WMT23) | - | - | BLEU 32.3, COMET 83.0 | - |
| 检索准确率 | Llama 3 | - | 73.2% | - |
消融实验¶
| 分析 | 发现 |
|---|---|
| 对齐位置 | 中间层(16-24)最优,底层和顶层效果差 |
| 任务微调影响 | 微调保持但不增强跨语言对齐 → 需显式对齐 |
| 未见语言泛化 | 在未参与对齐训练的语言上也有提升 |
| 对齐语言选择 | 对具体选择哪种语言做对齐不敏感 |
关键发现¶
- 中间层是跨语言对齐的"黄金位置"——这一发现在 1000+ 语言对上一致
- 在生成任务(翻译、结构化生成)上的跨语言迁移比之前分类任务上更具挑战但本方法有效
- 对齐训练只需少量平行数据,成本低
- 模块化设计允许即插即用,新语言适配无需重训任务模块
亮点与洞察¶
- 大规模语言对分析提供了可靠的经验基础:1000+ 语言对的分析结果使"中间层最优"的结论具有很强的普适性。
- 交替优化策略简单有效:不修改模型架构,只在训练时加入对齐 loss,开销小但收益大。
- 模块化设计很实用:对齐能力和任务能力解耦,新语言/新任务可独立扩展。
局限性 / 可改进方向¶
- 实验主要在 7-8B 模型上,更大模型的中间层对齐位置可能不同
- 平行翻译数据仍需少量获取,对极低资源语言可能仍有挑战
- 未探索多层同时对齐是否比单层更好
相关工作与启发¶
- vs mBERT/XLM-R 的跨语言方法:之前方法针对 encoder-only 模型的分类任务,本文首次系统研究 decoder-only LLM 的生成任务跨语言迁移
- vs 简单翻译数据增强:翻译所有训练数据成本高且可能引入翻译错误,中间层对齐更高效
- 对 LLM 多语言能力从何而来、存储在哪一层有重要洞察
评分¶
- 新颖性: ⭐⭐⭐⭐ 中间层是最佳跨语言对齐位置的发现有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 1000+ 语言对 + 3 类任务 + 模块化验证
- 写作质量: ⭐⭐⭐⭐ 分析系统,结论清晰
- 价值: ⭐⭐⭐⭐ 对多语言 LLM 部署有实际意义