跳转至

RLP: Reinforcement as a Pretraining Objective

会议: ICLR 2026
arXiv: 2510.01265
代码: 无
领域: 强化学习
关键词: 预训练, 信息增益, Chain-of-Thought, 强化学习, 下一token预测

一句话总结

提出RLP(Reinforcement Learning Pretraining),一种信息增益驱动的RL预训练目标,通过奖励能提升下一token预测概率的思维链(CoT),将RL从后训练阶段前移到预训练阶段,实现无验证器的密集奖励信号。

研究背景与动机

当前LLM的标准训练流程是"预训练(NTP)→ SFT → RLHF/RLVR",其中强化学习仅出现在最后阶段,且依赖特定任务的验证器或人类反馈。然而,人类理解文本并非逐token线性处理,而是将输入与先验知识并行整合。标准NTP预训练缺乏这种机制,限制了模型在学习过程中进行推理和知识基础化的能力。

核心问题:能否将RL的探索精神(探索性CoT生成)带入预训练阶段?

本文的核心idea是将CoT视为一种"动作":在预测每个下一token前,模型先采样一段内部思考,奖励信号是思考对预测准确性的提升程度(信息增益)。这一设计无需验证器,可在通用文本上训练。

方法详解

整体框架

RLP在NTP的每个位置 \(t\) 插入一个CoT采样步骤。模型先从上下文 \(x_{<t}\) 生成思维 \(c_t\),然后基于 \((x_{<t}, c_t)\) 预测 \(x_t\)。奖励是与"不思考"基线的对数似然比。

关键设计

  1. 信息增益奖励:

    • 功能:衡量CoT对下一token预测的帮助程度
    • 核心思路:\(r(c_t) = S_{\text{pred}}(c_t) - S_{\text{ema}}\),其中 \(S_{\text{pred}}(c_t) = \log p_\theta(x_t|x_{<t},c_t)\) 是有思考的预测对数概率,\(S_{\text{ema}} = \log \bar{p}_\phi(x_t|x_{<t})\) 是EMA教师(无思考)的基线
    • 设计动机:当思考确实提升预测时奖励为正(Proposition 1:期望奖励等于交叉熵下降),且在每个位置提供标量信号——无需学习value函数或外部验证器
  2. EMA教师基线:

    • 功能:提供"不思考"的反事实对比
    • 核心思路:教师参数 \(\phi \leftarrow \tau\phi + (1-\tau)\theta\)\(\tau=0.999\),初始化为当前模型
    • 设计动机:冻结基线会偏离太远导致奖励hacking;完全同步则对数似然比趋零。EMA提供一步延迟的平滑参考,平衡信息量与训练稳定性
  3. 组相对基线与裁剪代理:

    • 功能:减少方差,稳定训练
    • 核心思路:每个位置采样 \(G\) 个思维,使用修正的inclusive mean基线 \(A^{(i)} = \frac{G}{G-1}(r(c_t^{(i)}) - \bar{r})\)。对思维token使用PPO式裁剪代理损失 \(\mathcal{L}_{\text{clip}}\)
    • 设计动机:组相对基线消除了inclusive mean的 \((1-1/G)\) 收缩偏差,裁剪防止策略更新过大

损失函数 / 训练策略

RLP不包含标准NTP损失,仅优化信息增益目标:\(\max_\theta J(\theta) = \mathbb{E}[r(c_t)]\)。梯度仅应用于思维token,奖励计算中 \(p_\theta\)\(\bar{p}_\phi\) 的梯度被截断(stop-gradient)。实际训练中每个文档随机选择一个token位置应用RLP。

实验关键数据

主实验(qwen3-1.7b-base,8基准平均)

模型 数学平均 科学平均 总平均
\(\mathcal{M}_{\text{base}}\) 24.35 34.50 30.32
\(\mathcal{M}_{\text{CPT}}\)(连续预训练) 30.77 32.01 30.85
\(\mathcal{M}_{\text{RLP}}\) 31.74 39.68 36.03
\(\mathcal{M}_{\text{base}}\)+Post 34.29 42.38 39.34
\(\mathcal{M}_{\text{CPT}}\)+Post 34.63 42.73 39.90
\(\mathcal{M}_{\text{RLP}}\)+Post 36.03 45.74 42.51

消融实验(Nemotron-Nano-12B-v2扩展)

配置 总平均 说明
基座模型 42.81% 强基线
+RLP 61.32% +18.5个百分点
科学推理提升 +23% 泛化到非数学领域

关键发现

  • RLP相对基座模型提升19%,相对连续预训练提升17%,确认增益来自方法而非计算
  • 后训练后增益不被洗掉反而复合:RLP+Post比CPT+Post高7-8%
  • 在AIME25等推理密集基准上收益最大(5.02 vs 3.96 vs 2.25)
  • 在通用网页语料上训练也有效——不局限于数学数据

亮点与洞察

  • 范式性创新:将RL从后训练前移到预训练,改变了"预训练→SFT→RL"的固定流程
  • 无验证器、通用文本:奖励完全从模型自身的预测能力计算,可应用于任意文本
  • 信息增益的理论保证:Proposition 1和2建立了奖励与交叉熵下降、边际化思维的关系
  • 与后训练正交复合:RLP建立的推理基础在SFT/RLVR后不仅保持且放大

局限与展望

  • 每个文档仅选1个位置应用RLP,全位置应用的效果和成本值得探索
  • CoT长度对效果的影响需要更系统的分析
  • 当前EMA decay \(\tau=0.999\) 为固定值,自适应调节可能更优
  • 需要更多非英语、非STEM领域的验证

相关工作与启发

  • RPT(Dong et al., 2025)也做RL预训练但使用稀疏二元奖励且依赖代理模型过滤,RLP在每个位置提供连续信号
  • 与RLHF/RLVR的关键区别:RLP不需要任何外部验证器或人类标注
  • 启示:预训练阶段注入"思考习惯"可能比后训练阶段才教模型推理更加根本

评分

  • 新颖性: ⭐⭐⭐⭐⭐ RL预训练+信息增益奖励的设计具有范式意义
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型规模、多数据域、后训练验证、对比消融
  • 写作质量: ⭐⭐⭐⭐⭐ 理论-方法-实验三部分衔接紧密
  • 价值: ⭐⭐⭐⭐⭐ 开辟了RL预训练这一新方向,具有广泛影响力

相关论文