Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs¶

会议: ACL 2025
arXiv: 2502.14830
代码: https://github.com/dannigt/mid-align
领域: LLM对齐 / 多语言
关键词: cross-lingual transfer, middle-layer alignment, contrastive learning, representation alignment, low-resource languages

一句话总结¶

通过分析 1000+ 语言对发现 LLM 中间层具有最强的跨语言对齐潜力，提出在任务训练中集成中间层对齐目标（对比损失），在槽填充（F1 61.7%）、机器翻译（BLEU 32.3）和结构化文本生成上显著提升跨语言迁移，对未见语言也有效。

研究背景与动机¶

领域现状：LLM 通过 SFT 在特定语言的特定任务上表现出色，但跨语言扩展受限于语言间性能差距和低资源语言缺乏微调数据。
现有痛点：(1) 之前的跨语言迁移研究主要关注分类任务，生成任务（输出长度可变）更具挑战；(2) 不清楚 LLM 的哪一层最适合做跨语言对齐；(3) 任务微调可能破坏预训练中已有的跨语言能力。
核心矛盾：任务特定微调保持但不增强语义对齐——需要显式对齐机制来提升跨语言迁移。
本文要解决什么：找到最优对齐位置 + 在任务训练中显式增强跨语言表示对齐。
切入角度：大规模分析 1000+ 语言对在不同层的表示相似性，数据驱动地确定中间层是最佳对齐位置。
核心 idea 一句话：在 LLM 中间层加入对比式跨语言对齐目标，交替优化任务损失和对齐损失。

方法详解¶

整体框架¶

两步：(1) 分析 LLM 各层的跨语言表示结构（用 mean-pooled hidden states 的 cosine 相似度）；(2) 在任务训练中交替优化任务 loss 和中间层对齐 loss（对比学习），用平行翻译对作为正例。

关键设计¶

跨语言对齐分析 (1000+ 语言对):
做什么：在不同层计算平行句对的表示相似度，跨 1000+ 语言对统计
核心发现：中间层（约第 16-24 层）的跨语言语义对齐最强，底层和顶层对齐较弱
设计动机：数据驱动地确定最佳对齐位置，而非凭经验猜测
中间层对比对齐 (Contrastive Alignment):
做什么：在选定的中间层，用 mean-pooled hidden states 做对比学习—— 平行翻译对为正例，非翻译对为负例
核心思路：对比 loss 最大化翻译对的 cosine 相似度，最小化非翻译对的相似度
设计动机：与任务训练交替进行，不干扰任务学习的同时增强跨语言表示
模块化设计:
做什么：对齐模块和任务模块可分别训练，然后合并使用
设计动机：新语言发现时只需训练对齐模块，不用重做任务训练

损失函数 / 训练策略¶

交替优化：任务 loss（交叉熵）和对齐 loss（对比学习）。对齐只需少量平行数据（几千句对即可）。

实验关键数据¶

主实验¶

任务	模型	监督	跨语言迁移	基线跨语言
槽填充 (MASSIVE)	Llama 3	77.0 F1	61.7 F1	~55 F1
机器翻译 (WMT23)	-	-	BLEU 32.3, COMET 83.0	-
检索准确率	Llama 3	-	73.2%	-

消融实验¶

分析	发现
对齐位置	中间层（16-24）最优，底层和顶层效果差
任务微调影响	微调保持但不增强跨语言对齐 → 需显式对齐
未见语言泛化	在未参与对齐训练的语言上也有提升
对齐语言选择	对具体选择哪种语言做对齐不敏感

关键发现¶

中间层是跨语言对齐的"黄金位置"——这一发现在 1000+ 语言对上一致
在生成任务（翻译、结构化生成）上的跨语言迁移比之前分类任务上更具挑战但本方法有效
对齐训练只需少量平行数据，成本低
模块化设计允许即插即用，新语言适配无需重训任务模块

亮点与洞察¶

大规模语言对分析提供了可靠的经验基础：1000+ 语言对的分析结果使"中间层最优"的结论具有很强的普适性。
交替优化策略简单有效：不修改模型架构，只在训练时加入对齐 loss，开销小但收益大。
模块化设计很实用：对齐能力和任务能力解耦，新语言/新任务可独立扩展。

局限性 / 可改进方向¶

实验主要在 7-8B 模型上，更大模型的中间层对齐位置可能不同
平行翻译数据仍需少量获取，对极低资源语言可能仍有挑战
未探索多层同时对齐是否比单层更好

评分¶

新颖性: ⭐⭐⭐⭐ 中间层是最佳跨语言对齐位置的发现有价值
实验充分度: ⭐⭐⭐⭐⭐ 1000+ 语言对 + 3 类任务 + 模块化验证
写作质量: ⭐⭐⭐⭐ 分析系统，结论清晰
价值: ⭐⭐⭐⭐ 对多语言 LLM 部署有实际意义