Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs¶

会议: ACL 2025
arXiv: 2502.14830
代码: https://github.com/dannigt/mid-align
领域: LLM对齐 / 多语言
关键词: 跨语言迁移, middle-layer alignment, 对比学习, 表示对齐, low-resource languages

一句话总结¶

通过大规模分析 1000+ 语言对（35 种语言、1190 个方向）发现 LLM 中间层具有最强跨语言语义对齐潜力，提出在任务微调中交替优化中间层对比对齐损失，在槽填充（F1 +1.5）、机器翻译（COMET +1.1）和 JSON 生成三大任务上显著提升跨语言迁移，且对未见语言和不同域数据均有效；分别训练的对齐与任务 LoRA 模块可通过权重平均合并使用。

研究背景与动机¶

领域现状：Decoder-only LLM 通过 SFT 在特定语言的特定任务上表现出色，但将这种能力扩展到多语言（尤其是低资源语言）仍然困难——微调数据很少覆盖 LLM 支持的所有语言，跨语言迁移至关重要。
核心矛盾：先前跨语言对齐方法主要针对 encoder-only 或 encoder-decoder 模型（可在 encoder 输出端对齐），decoder-only LLM 没有明确的输入/输出表示边界，在哪一层、如何对齐是一个开放问题。
现有方案不足：(1) 任务微调（包括多语言微调）保持但不增强跨语言语义对齐（Figure 3 实验验证），说明纯 SFT 不够；(2) 已有工作仅关注分类任务的迁移，生成任务（可变长度输出）更具挑战；(3) 很多方法需要每种目标语言的单语数据做 LM 适配，成本高。
本文切入角度：对 Llama 3-8B 和 Qwen 2.5-7B 在 FLoRes-200 数据集上做大规模跨语言检索分析（35 语言、1190 方向），数据驱动地发现中间层（~16 层）的翻译检索准确率最高，且与下游跨语言迁移性能呈强正相关（p<0.01），由此提出在中间层施加显式对比对齐损失。
核心 idea：在 LLM 中间层加入对比式跨语言对齐目标，与任务损失交替优化，增强跨语言迁移。

方法详解¶

整体框架¶

训练过程分为两个交替执行的目标：(1) 任务目标——标准因果语言建模的交叉熵损失；(2) 对齐目标——在中间层对平行翻译句对施加对比损失。每个 training step 只优化其中一个目标，避免手动平衡权重和梯度冲突。使用 LoRA (rank=8) 参数高效微调，基于 Llama 3-8B-Instruct 和 Qwen 2.5-7B-Instruct。

关键设计¶

跨语言对齐诊断分析（Translation Retrieval Probing）
- 目标：量化 LLM 各层的跨语言语义对齐程度，找到最优对齐层
- 做法：在 FLoRes-200 上提取 35 种语言 × 每层的 hidden states → mean pooling 得到句向量 → 用 ratio-based margin similarity 做翻译检索，覆盖全部 N(N-1)=1190 个语言方向
- 核心发现：中间层（Llama 第 16 层、Qwen 类似位置）检索准确率最高，底层和顶层较弱；低资源语言对齐程度不到整体平均的一半；中间层检索准确率与下游迁移 F1 呈显著正相关（p<0.01）
- 设计意义：为后续对齐层的选择提供了可靠的实证基础
中间层对比对齐损失（Mid-Layer Contrastive Alignment）
- 目标：在中间层显式拉近平行翻译对的表示、推远非翻译对
- 做法：对 batch 内 n 对平行句，提取第 i 层（中间层）mean-pooled hidden states，用 InfoNCE 对比损失：\(\mathcal{L}_{\text{align}} = -\log \frac{\exp(\text{sim}(\mathbf{h}_s^i, \mathbf{h}_t^i))}{\sum_{v \in \mathcal{B}} \exp(\text{sim}(\mathbf{h}_s^i, \mathbf{h}_v^i))}\)，sim 为 cosine similarity，可选温度参数 τ
- 对齐数据：使用 Tatoeba 或任务数据的平行句对，低资源语言仅需几百句即可；对齐数据按语言重采样至近似均匀分布
- 设计意义：与任务损失交替优化，不修改模型架构，训练开销约为标准 SFT 的两倍但收益显著
模块化 LoRA 合并（Post-hoc Module Merging）
- 目标：使已有任务模型获得跨语言能力而无需重训
- 做法：分别训练任务 LoRA 适配器和对齐 LoRA 适配器，通过加权平均合并（权重在 dev set 上调优）
- 效果：合并后的性能接近联合训练（槽填充 F1 +1.1 vs 联合 +1.5，翻译 COMET +0.6 vs 联合 +1.1），且增益在各语言间分布更均匀
- 设计意义：对齐能力与任务能力解耦，新语言适配或能力增强无需获取原始任务训练数据

训练细节¶

配置项	设置
基座模型	Llama 3-8B-Instruct / Qwen 2.5-7B-Instruct
参数高效微调	LoRA rank=8，覆盖所有 attention 和线性投影层
有效 batch size	128（任务 & 对齐均是）
对比学习 mini-batch	32 对平行句
对齐层位置	中间层（Llama 第 16 层 / 32 层总共）
对齐数据量	低资源语言仅需几百句平行数据
对齐数据采样	多语言重采样至近似均匀分布

实验关键数据¶

主实验结果¶

任务 & 指标	模型	SFT 基线	+ 中间层对齐	提升
槽填充监督 (5 语言) F1	Llama 3	76.6	77.0	+0.4
槽填充迁移 (15 语言) F1	Llama 3	60.2	61.7	+1.5
槽填充对齐语言 F1	Llama 3	51.7	55.5	+3.8
机器翻译迁移→En BLEU	Llama 3	31.8	32.3	+0.5
机器翻译 En→迁移 COMET	Llama 3	79.6	80.7	+1.1
检索准确率 (20 语言平均)	Llama 3	39.4%	73.2%	+33.8
槽填充迁移 F1	Qwen 2.5	53.5	55.3	+1.8

消融与分析¶

分析维度	核心发现
对齐层位置	中间层 (16) 最优且增益跨语言最均匀；底层 (8) 严重损害性能；顶层 (32) 可行但增益跨语言不均衡 (SD↑)
对齐语言资源水平	低资源组增益最大 (+3.8 F1)，高资源组增益最小 (+0.7 F1)——初始对齐弱的语言受益最多
未见语言泛化	非对齐语言平均仍有 +0.4 F1 提升，说明方法增强的是通用迁移能力
大规模对齐	19 语言→En 对齐 (+1.9 F1) > 5 语言→En (+1.5)；多向对齐不额外提升，En 对齐隐含多向效果
域泛化	Tatoeba / IWSLT 域数据对齐仍有效（检索准确率 71.9% / 68.5% vs oracle 77.7%）
模块合并	分别训练后合并 ≈ 联合训练效果（槽填充 +1.1 vs +1.5，翻译 +0.6 vs +1.1）
长序列任务	JSON 生成中对齐语言 +1.0 F1，但监督集（含中文）下降 1.0，句级对齐与长序列存在冲突
非拉丁文字	非拉丁文字语言增益仅 +0.5 F1（vs 整体 +1.5），受限于分词质量影响 mean pooling

亮点与洞察¶

大规模实证驱动：1190 个语言方向的检索分析为"中间层最优"提供了强有力的统计支撑，而非凭经验猜测
交替优化策略简洁高效：不修改模型架构、不手动调损失权重，实现了跨语言对齐与任务学习的解耦
数据需求极低：低资源语言仅需几百句平行数据即可获得显著迁移提升，实用性强
模块化设计：对齐和任务 LoRA 可独立训练再合并，面向工程部署友好——新语言到来时只需训练轻量对齐模块
中间层对齐的"辐射效应"：在第 16 层施加对比损失后，前面多层的对齐也随之增强（Figure 4），顶层/底层对齐则无此效果

局限性与未来方向¶

实验限于 7-8B 模型，更大模型的最优对齐层位置可能不同
非拉丁文字语言增益有限，根因在分词质量 → 需要探索更优的 pooling 机制（attention pooling 初步实验未成功）
句级 mean pooling 对齐与长序列任务存在冲突（JSON 生成中中文下降 2.2 F1）
交替优化使训练计算量翻倍；可通过模块合并方案缓解
多层同时对齐效果因任务而异，最优多层策略仍需探索

总体评分¶

维度	分数 (1-10)	说明
新颖性	7	对比对齐本身不新，核心贡献在于"中间层最优"的系统性发现及将其应用于 decoder-only LLM
实用性	8	数据需求低（几百句平行数据）、即插即用的模块合并设计，工程落地门槛低
实验充分度	9	3 个任务 × 2 个模型 × 多种消融（层位置/语言资源/域泛化/模块合并），分析全面
写作质量	8	动机清晰、实验编排合理、分析系统化，图表丰富

评分¶

新颖性: ⭐⭐⭐⭐ 中间层是最佳跨语言对齐位置的发现有价值
实验充分度: ⭐⭐⭐⭐⭐ 1000+ 语言对 + 3 类任务 + 模块化验证
写作质量: ⭐⭐⭐⭐ 分析系统，结论清晰
价值: ⭐⭐⭐⭐ 对多语言 LLM 部署有实际意义