How to Train Long-Context Language Models (Effectively)¶

会议: ACL 2025
arXiv: 2410.02660
领域: LLM 效率
关键词: 长上下文训练, 持续预训练, 数据配比, 监督微调, 位置外推

一句话总结¶

本文系统研究了如何通过持续预训练和监督微调（SFT）有效训练长上下文语言模型，提出了包括数据配比、训练长度缩放等一系列关键发现，最终训练出的 ProLong-8B 模型仅用 Llama-3.1 5% 的长上下文训练数据量即在 128K 长度上达到同规模最优性能。

研究背景与动机¶

长上下文语言模型支持书籍摘要、多示例上下文学习等新应用，但将 LM 适配到长上下文面临基础设施和数据方面的挑战
现有的训练免费位置外推方法（如修改 RoPE 频率基数）无法可靠解决简单的 Needle-in-a-Haystack（NIAH）任务，仍需在数十亿长文档 token 上继续训练
前沿开源模型（如 Llama-3.1）采用"长上下文持续训练 + SFT"的范式，但许多设计决策对开源社区仍不透明
现有评估方法（困惑度、NIAH）不够可靠，无法指导模型开发——NIAH对强模型已饱和，困惑度与下游任务表现不一致

方法详解¶

整体框架¶

采用三阶段方案：(1) 建立可靠的评估协议指导模型开发；(2) 基于 Llama-3-8B 进行长上下文持续预训练；(3) 在短指令数据上进行 SFT。最终得到 ProLong-8B 模型，上下文窗口支持 512K token。

关键设计¶

评估协议革新： - 采用 HELMET 评估套件，覆盖 Recall、RAG、Re-ranking、ICL、QA、Summarization 六类下游任务 - 关键发现：必须在 SFT 之后评估——部分长上下文性能改进仅在 SFT 后才显现（如 RAG、Re-ranking） - 同时跟踪短上下文性能（HellaSwag、MMLU、ARC-c、WinoGrande、GSM8K），确保不退化

数据配比策略： - 长数据来源：代码仓库（将同一 repo 所有文件拼接为单文档）和书籍是最优长数据源，1:1 混合效果最佳 - 短长数据比例：60% 长数据 + 40% 短数据为最优比例；100% 长数据会严重损害长上下文性能 - 短数据质量：设计 ProLong ShortMix（FineWeb 25%、FineWeb-Edu 25%、Wikipedia 10%、Tulu-v2 10%、StackExchange 10%、ArXiv 10%、OpenWebMath 10%），有效保留数学推理能力

训练长度缩放： - 超越评估长度的训练有助于性能提升：在 512K 上训练可提升 64K 评估性能 - 训练 40B token（Stage 1: 64K 长度 20B token → Stage 2: 512K 长度 20B token） - RoPE 频率基数：Stage 1 使用 8×10^6，Stage 2 使用 1.28×10^8

SFT 策略： - 仅使用短上下文指令数据（UltraChat）即可获得强长上下文性能 - 加入合成长上下文 SFT 数据（即使仅 1%）反而降低性能

实验关键数据¶

主实验¶

ProLong-8B 在 HELMET 128K 评估中的表现（对比同规模模型）：

模型	Recall	RAG	ICL	Re-rank	QA	Summ.	Avg.
ProLong (8B)	98.8	63.2	86.5	22.5	43.9	29.2	49.4
Llama-3.1 (8B)	95.2	59.5	83.9	14.0	43.2	27.0	46.5
MegaBeam-Mistral (7B)	89.6	57.0	86.2	14.7	37.3	28.9	45.4
Llama-3.1 (70B)	90.7	56.2	81.4	24.5	56.3	31.6	49.7

训练效率：ProLong 仅使用 40B token（Llama-3.1 长上下文训练预算的 5%），即超越 Llama-3.1-8B-Instruct。

关键发现¶

纯长数据训练有害：100% 长数据虽持续改善困惑度，但严重损害下游长上下文任务表现
超长训练长度有益：512K 训练 vs. 64K 训练，在 64K 评估上 Recall 98.5 vs. 95.0，Re-rank 32.9 vs. 28.0
短 SFT 数据即可：0% 合成长 SFT 数据时 Avg. 55.7，加入 50% 合成数据后降为 43.3
短上下文性能保留：ProLong ShortMix 短上下文均值 65.5，接近原始 Llama-3-8B 的 66.0

短数据源对比：

短数据源 (40%)	Long-Ctx Avg.	HellaSwag	MMLU	GSM8K	Short Avg.
SlimPajama	52.9	81.2	63.0	41.9	64.2
FineWeb-Edu	53.0	81.0	62.6	39.4	63.0
DCLM-Baseline	52.0	82.0	65.6	39.4	64.8
ProLong ShortMix	54.6	81.6	65.3	46.6	65.5

亮点与洞察¶

挑战了"长上下文训练用全长数据"的直觉，发现混合高质量短数据至关重要
首次系统证明训练序列长度超过评估长度的好处，提供了基于依赖距离的理论解释
SFT 仅需短指令数据的发现大幅简化了长上下文模型的训练流程
评估方法论上强调困惑度和 NIAH 的不可靠性，推动社区采用更全面的评估
从 Llama-3-8B-Instruct 而非 Base 初始化的选择，显著改善了短上下文性能保留

局限性¶

实验仅基于 Llama-3-8B（约 8B 参数），更大模型规模下结论可能不同
未探索 RLHF/偏好优化对长上下文 SFT 的影响
合成长 SFT 数据无效可能与数据生成器质量有关，需进一步验证
512K训练的计算成本显著高于64K（12.2K vs 2.2K H100小时），计算最优方案有待探索

评分¶

新颖性：⭐⭐⭐⭐（系统性消融实验，多个反直觉发现）
实用性：⭐⭐⭐⭐⭐（直接可用的训练方案，完整复现细节）
实验充分度：⭐⭐⭐⭐⭐（海量消融实验，从评估到训练全覆盖）
写作质量：⭐⭐⭐⭐⭐（结构清晰，Takeaway Box 设计精巧）