Long-Short Alignment for Effective Long-Context Modeling in LLMs¶
会议: ICML 2025
arXiv: 2506.11769
代码: https://github.com/PKU-ML/LongShortAlignment (有)
领域: LLM效率
关键词: 长度泛化, 输出分布对齐, 长短对齐, 正则化, 长上下文建模
一句话总结¶
本文从模型输出分布的角度提出长度泛化的新视角——长短对齐 (Long-Short Alignment),指出不同长度输入的输出分布一致性是长度泛化的关键因素,提出 Long-Short Misalignment 度量并将其作为训练正则项,在合成任务和自然语言任务上均显著提升长上下文建模能力。
研究背景与动机¶
领域现状:LLM 受 Transformer 固定上下文窗口限制,长上下文建模是核心挑战。扩大上下文窗口可以带来更多 in-context learning 样本和更长的推理链。
现有痛点:长上下文训练极其耗时耗内存,因此理解和提升长度泛化(从短序列训练泛化到长序列测试)至关重要。
核心矛盾:现有工作主要从输入端(位置编码设计)或模型内部机制(RASP 分析等)理解长度泛化,忽略了一个关键维度——模型的输出行为。
本文目标:揭示模型输出分布在不同长度上的一致性(长短对齐)如何影响长度泛化,并提出改善方法。
切入角度:通过合成任务对比实验揭示现象——均值预测任务泛化好(输出空间固定在 [0,1]),长度预测任务泛化差(输出空间随长度变化),然后将洞察推广到自然语言任务。
核心 idea:模型在不同长度输入上产生一致的输出分布是长度泛化的关键,可以通过正则化项显式促进这种一致性。
方法详解¶
整体框架¶
方法分为三步:(1) 在合成任务上发现长短对齐与长度泛化的因果关系;(2) 提出 Long-Short Misalignment 度量量化自然语言任务中的对齐程度;(3) 将该度量作为正则项加入训练损失。训练时仅需两次前向传播(原始序列和截取后的序列),计算两者重叠部分的 SCE 损失。
关键设计¶
-
合成任务分析与 Output Reparameterization (OutRep):
- 功能:通过均值预测 vs 长度预测的对比,揭示输出空间的稳定性决定长度泛化能力
- 核心思路:均值预测的输出始终在 [0,1],无论输入长度如何变化;长度预测的输出随长度线性增长(支撑集为 {l}),导致训练分布外泛化失败
- Theorem 3.1:长度预测的泛化误差为 O((l_test - l_train)^2),而均值预测的泛化误差为 O(1)
- OutRep:对长度预测任务使用可逆函数 f(x) 映射输出(如 f(x)=1/sqrt(x)),使不同长度的输出分布更加一致,显著改善泛化
- 设计动机:不同于修改位置编码等输入端方法,直接从输出端解决问题
-
Long-Short Misalignment 度量:
- 功能:量化模型在不同长度输入上输出分布的偏差
- 核心思路:给定序列 x 及其两个后缀 x[-l1:] 和 x[-l2:](长度接近但不同),计算模型在两者上的预测分布的 Symmetrical Cross-Entropy (SCE) 损失
- 公式:L_misalign = E_{x,l1,l2}[L_SCE(g(x[-l1:]), g(x[-l2:]))]
- l1 和 l2 从 [l_train/2, l_train] 采样,避免过大的长度差异
- Table 1 核心发现:L_misalign 与长上下文 benchmark 的相关系数为 0.85(绝对值),远高于训练损失的 0.62
-
Misalignment 正则化:
- 功能:将 L_misalign 作为正则项加入训练损失
- 新损失:L_train* = L_train + alpha * L_misalign
- 高效实现:采样长度为 l_train + l_extra 的序列,前 l_train 和后 l_train 个 token 分别作为两个输入,仅需两次前向传播即可同时计算 L_train 和 L_misalign
- 推荐 alpha 在 [0.1, 0.3] 范围,过大会导致过度正则化
损失函数 / 训练策略¶
- 总损失:L_train* = L_train + alpha * L_misalign,alpha 推荐 0.1~0.3
- 高效实现仅需两次前向传播,额外开销极小
- Theorem 4.1:泛化误差上界 = C1 * L_misalign + C2 * L_train + C0,且 C1/C2 随测试长度增大而增大,说明 L_misalign 对长序列泛化更重要
- 适用于多种模型适配策略:CLEX、LongQLora、EABF
实验关键数据¶
主实验(训练 4K,基于 CLEX 适配 Llama2-7B)¶
| 数据集 | 方法 | LongBench-E (200步) | PPL (200步) |
|---|---|---|---|
| RedPajama-Book | L_train (Baseline) | 24.7 | 6.12 |
| RedPajama-Book | +0.1*L_misalign (Ours) | 26.6 | 5.88 |
| RedPajama-Book | +0.5*L_misalign (Ours) | 24.7 | 6.54 |
| PG19 | L_train (Baseline) | 22.5 | 7.45 |
| PG19 | +0.1*L_misalign (Ours) | 25.3 | 7.35 |
训练 8K(LongQLora + EABF 适配)¶
| 适配方法 | 方法 | LongBench-E (200步) | PPL (200步) |
|---|---|---|---|
| LongQLora | Baseline | 23.4 | 5.82 |
| LongQLora | +0.1*L_misalign | 25.8 | 5.77 |
| EABF | Baseline | 23.6 | 6.01 |
| EABF | +0.1*L_misalign | 24.8 | 5.91 |
BABILong 实验(推理-in-a-haystack)¶
| 训练损失 | 4K | 8K | 16K |
|---|---|---|---|
| Baseline | 48.2 | 42.4 | 37.9 |
| +0.1*L_misalign | 49.1 | 44.4 | 40.1 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| alpha=0.1 | LongBench-E 26.6 | 最优表现 |
| alpha=0.3 | LongBench-E 27.1 | 略好但风险较高 |
| alpha=0.5 | LongBench-E 24.7 | 过度正则化 |
| alpha=1.0 | LongBench-E 19.9, PPL 12.92 | 严重过度正则化 |
| 采样范围 [1, l_train/2] | LongBench-E 25.8 | 当前策略 |
| 采样范围 [1, l_train] | LongBench-E 19.1 | 过大差异损害性能 |
关键发现¶
- L_misalign 与长上下文性能的相关系数 (0.85) 远高于训练损失 (0.62)
- alpha=0.1~0.3 为最优范围,过大正则化严重损害性能
- 在 BABILong 的 middle-context (fact depth=50%) 上效果最为显著,缓解了 "loss-in-the-middle" 现象
- 方法兼容多种长上下文适配策略
亮点与洞察¶
- 提出全新视角:从输出分布而非输入特征理解长度泛化,填补了现有研究的盲区
- 合成任务的对比实验(均值 vs 长度预测)极其直观地揭示了长短对齐的重要性
- 理论支持完整:Theorem 3.1 解释合成任务现象,Theorem 4.1 给出泛化误差上界
- 方法实现极简:仅需两次前向传播 + 一个 SCE 损失项,几乎零工程成本
局限与展望¶
- 实验主要基于 Llama2-7B,更大模型和更新架构的验证不足
- alpha 需要调参,且对不同任务/数据集可能有不同最优值
- 采样范围需要谨慎设计,过大差异反而损害性能
- 正则化项主要作用于微调阶段,对从头预训练的效果未探索
- 虽然理论建立了上界,但并非紧界
相关工作与启发¶
- 与位置编码方法(PI、YaRN、CLEX)正交:它们修改输入表示,本文修改训练目标
- 与 RandomPos 等方法的区别:RandomPos 通过位置随机化隐式促进长短对齐,本文显式量化并优化
- long-short misalignment 度量本身可以作为模型选择的评估指标
- 启发:对齐思想可以推广到其他分布偏移问题(如域泛化)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐(全新理论视角,输出空间的长短对齐概念首次提出)
- 实验充分度: ⭐⭐⭐⭐(合成+自然语言双验证,完整消融,但模型规模有限)
- 写作质量: ⭐⭐⭐⭐⭐(论述逻辑严密,合成到自然语言的推广路径清晰)
- 价值: ⭐⭐⭐⭐(提供了长度泛化的新理解维度,实用性强)
相关论文¶
- [ICML 2025] Efficient Length-Generalizable Attention via Causal Retrieval for Long-Context Language Modeling
- [ICML 2025] NExtLong: Toward Effective Long-Context Training without Long Documents
- [ICML 2025] Curse of High Dimensionality Issue in Transformer for Long-context Modeling
- [ICML 2025] PENCIL: Long Thoughts with Short Memory
- [NeurIPS 2025] Long-Context Modeling with Dynamic Hierarchical Sparse Attention for On-Device LLMs