EvoLM: In Search of Lost Language Model Training Dynamics¶

会议: NeurIPS 2025 arXiv: 2506.16029 代码: 有（模型、数据、训练和评估 pipeline 全部开源）领域: 强化学习 关键词: training dynamics, scaling law, continued pre-training, reinforcement learning, SFT

一句话总结¶

系统训练 100+ 个 1B/4B 参数的 LM（从零开始），透明地研究预训练→续训→SFT→RL 各阶段的训练动态，揭示过度训练的递减收益、灾难性遗忘的缓解策略、以及 SFT/RL 配置的复杂权衡。

研究背景与动机¶

现代语言模型训练被分为多个阶段（预训练、续训、SFT、RL），但下游开发者很难评估每个阶段设计选择的影响。现有研究存在几个关键缺陷：

不透明的分析：许多 post-training 研究使用现成的 base model，不严格控制模型大小、数据量等关键变量
中间检查点的可靠性：依赖中间 checkpoint 评估会因学习率未完整衰减而低估真实能力
阶段间交互不清：预训练量如何影响 RL 效果？SFT 和 RL 如何配置数据分配？这些问题缺乏系统研究

本文通过从零开始完整训练 100+ 个模型，每个都完成完整的学习率调度，消除了上述混杂因素。

方法详解¶

整体框架¶

四阶段流水线： 1. 预训练：在 FineWeb-Edu 上训练，token 预算从 Chinchilla 最优（20x模型参数）到 320B tokens 2. 续训（CPT）：在 FineMath 上续训 2B-42B tokens，配合数据回放策略减缓遗忘 3. SFT：在 GSM8K/MATH 增广数据集上微调，使用模型一致性过滤低质量样本 4. RL：使用 PPO + 二元可验证奖励，数据与 SFT 不重叠

模型用 LLaMA-2 架构初始化，1B 和 4B 参数两种规模。所有配置使用完整的学习率调度，只取最终 checkpoint。

关键设计¶

评估协议的双维度设计是本文亮点： - 上游任务（Upstream）：HellaSwag、Winogrande、PIQA 等 0-shot 准确率 → 衡量语言建模能力 - 下游任务（Downstream）：GSM8K-Platinum、MATH（域内）+ CRUXEval、BGQA、TabMWP、StrategyQA（域外）→ 衡量推理能力 - 四种采样策略：Pass@1（贪心）、Maj@16（多数投票）、RM@16（ORM 打分最佳）、Pass@16（任一正确）

数据回放策略：CPT 时混入少量预训练数据（FineWeb），最优比例约 5%（8B 回放 + 42B 领域数据）。

损失函数 / 训练策略¶

预训练和 CPT 使用标准的 next-token prediction loss
SFT 使用标准的交叉熵损失
RL 使用 PPO 算法 + 二元可验证奖励（答案正确为 1，错误为 0）
所有模型都完成完整学习率衰减

实验关键数据¶

主实验：预训练规模的影响¶

模型	ID Maj@16 (SFT)	ID Maj@16 (SFT+RL)	OOD Maj@16 (SFT)	OOD Maj@16 (SFT+RL)
1B-20BT	~8%	—	—	—
1B-80BT	~15%	21.4%	24.6%	31.0%
1B-160BT	14.2%	22.5%	25.6%	31.6%
1B-320BT	16.1%	25.0%	24.8%	29.9%
4B-160BT	26.4%	34.8%	26.0%	33.2%

模型规模与预训练预算交互¶

对比	ID Greedy (SFT/SFT+RL)	ID Pass@16 (SFT/SFT+RL)
1B-320BT（同 compute）	14.1/20.1	36.0/49.0
4B-80BT（同 compute）	11.3/15.7	34.2/43.0
1B-160BT（同 tokens）	12.8/17.5	34.5/45.1
4B-160BT（同 tokens）	22.0/27.8	47.6/58.4

消融实验¶

CPT 数据回放比例（1B-160BT 基础，总 50BT CPT）：

配置	GSM8K-Platinum Pass@1
无 CPT	6.04%
FineMath 50BT（无回放）	19.27%
FineWeb 1.6BT + FineMath 48.4BT	16.21%
FineWeb 8BT + FineMath 42BT	21.01%
FineWeb 16BT + FineMath 34BT	15.22%

SFT/RL 数据分配（固定 100K 样本，4 epochs）： - 分配更多给 SFT → 最大化域内性能（ID Greedy 在 70K SFT 时饱和） - 分配更多给 RL → 提升域外泛化（OOD 在 10K SFT / 90K RL 时最佳）

关键发现¶

Takeaway 1：过度预训练不总能改善下游性能，甚至可能导致退化（80-160x 模型参数时饱和）

Takeaway 3：CPT 导致灾难性遗忘，5% 的数据回放可有效缓解

Takeaway 4-5：充分的领域 CPT 是 post-training 成功的前提；无 CPT 时 RL 甚至可能降低性能

Takeaway 7-8：过度 SFT 提升域内但损害域外性能，且限制 RL 进一步提升

Takeaway 10：RL 主要提高已正确输出的采样概率，而非真正提升推理能力（Correct Ratio 上升但 Pass@16 下降）

Takeaway 12：ORM score 是可靠的无监督代理指标，8B 奖励模型的评分与 1B 模型的准确率有 0.62-0.84 的 Pearson 相关

亮点与洞察¶

端到端透明性：100+ 模型全部从零训练且完整衰减，消除了中间 checkpoint 的混杂因素（Table 3 实证了中间 checkpoint 显著低估真实性能）
RL 的本质洞察：RL 并非"教会模型新能力"，而是"放大已有正确行为的概率"——Pass@16 下降而 Correct Ratio 上升
模型规模的解锁条件：小模型在预训练不足时反而优于大模型；只有预训练到饱和区域后，模型规模优势才显现
ORM score 作为代理指标的实用价值，尤其在标注困难的任务中

局限性 / 可改进方向¶

模型规模仅到 4B，趋势是否推广到更大模型未验证
仅关注推理任务的 post-training，安全对齐、指令遵循、代码等目标未探索
RL 仅使用 PPO + 可验证奖励，未探索 GRPO、DPO 等替代方法
数学领域的结论是否迁移到其他专业领域（如法律、医学）不确定

评分¶

新颖性: 7/10 — 系统性强但单项发现多为已知趋势的量化验证
实验充分度: 10/10 — 100+ 模型的系统控制实验堪称标杆
实用性: 9/10 — 12 条 Takeaway 对 LM 训练实践有直接指导价值
写作质量: 9/10 — 结构清晰，图表丰富