SkyLadder: Better and Faster Pretraining via Context Window Scheduling¶

会议: NeurIPS 2025
arXiv: 2503.15450
代码: https://github.com/sail-sg/SkyLadder
领域: LLM效率
关键词: 上下文窗口调度, 预训练效率, 长上下文, 注意力机制, 训练稳定性

一句话总结¶

通过上下文窗口短到长的渐进式调度策略 SkyLadder，在固定计算量下实现更优的预训练效率（节省 22% 训练时间）和更好的模型性能（+3.7%），反驳了"长上下文=好性能"的业界信念。

SkyLadder 将预训练分为渐进式阶段：从极短窗口（32 token）开始，线性扩展至目标窗口（8K/32K），通过块状注意力掩码 \(M_{ij}\) 控制每步的有效上下文长度。

线性窗口扩展策略:
做什么：按固定速率逐步增大有效上下文窗口
核心思路：\(w(t) = \min(w_e, w_s + \lfloor\alpha t\rfloor)\)，其中 \(w_s=32\)（初始），\(w_e\)=目标窗口，\(\alpha=1/8\)（扩展速率）。通过块状注意力掩码实现，不改变数据打包
设计动机：线性调度在 6 种策略（线性/正弦/指数/阶梯/连续微调/Dataset Decomposition）中表现最优
块状注意力掩码:
做什么：限制每个位置只能 attend 到当前窗口内的前序 token
核心思路：\(M_{ij} = 0\) if \(\lfloor i/w \rfloor \cdot w \leq j \leq i\), else \(-\infty\)。可与 IntraDoc Mask 等策略正交组合
设计动机：掩码实现的优势——不需要重新打包数据，不引入领域偏差（vs Dataset Decomposition 按长度分段会偏向书籍等长文本领域）
训练稳定性增益:
做什么：短窗口阶段提供更稳定的训练动态
核心思路：短窗口时损失波动度 0.023 vs 长窗口 0.041（×1.78），梯度范数更低更一致
设计动机：注意力 logits 在长序列时容易爆炸，渐进扩展让模型平稳适应

标准语言模型损失，无额外损失项。核心超参：\(w_s=8\)（更大调度空间），\(\alpha=1/8\)（平衡短长任务），线性调度。与学习率调度正交。

方法	平均准确度	ARC-E	HellaSwag	MMLU	提升
Random 基线	46.3%	58.0	43.0	29.9	-
+ SkyLadder	50.0%	65.4	47.0	32.4	+3.7%
IntraDoc 基线	47.4%	61.8	45.6	30.5	-
+ SkyLadder	49.3%	64.8	47.9	31.8	+1.9%

扩展速率 \(\alpha\)	标准任务	长任务	训练时间节省
1/12 (最慢)	46.8	13.1	15%
1/8 (默认)	48.6	14.1	13.1%
1 (最快)	47.2	12.3	8%

模型大小	基线	+ SkyLadder	提升
120M	40.1%	41.2%	+1.1%
360M	47.2%	49.6%	+2.4%
3B	57.0%	60.5%	+3.5%

模型越大提升越明显。32K 窗口场景：训练时间节省 22.2%，FLOPs 节省 26.3%。