ExGRPO: Learning to Reason from Experience¶

会议: ICLR 2026
arXiv: 2510.02245
代码: GitHub
领域: LLM推理/强化学习
关键词: 经验回放, RLVR, 推理强化学习, 经验管理, GRPO

一句话总结¶

首次系统研究什么样的推理经验对RLVR最有价值，发现中等难度问题+低熵轨迹最有效，据此提出ExGRPO框架进行经验管理和混合策略优化，在数学推理上平均+3.5分，通用推理+7.6分。

研究背景与动机¶

领域现状：RLVR（强化学习+可验证奖励）已成为提升LLM推理能力的核心范式，GRPO等on-policy方法是主流。训练过程中模型生成大量推理轨迹（经验）。

现有痛点：标准on-policy训练在单次梯度更新后就丢弃rollout经验，导致计算资源浪费和训练不稳定。虽然传统RL中经验回放已被广泛研究，但在大模型RLVR场景中，什么样的经验最有价值这一基础问题尚未被深入探讨。

核心矛盾：大量经验被收集但并非等价——有些问题太简单（无学习信号），有些太难（噪声大）；有些轨迹推理正确，有些"蒙对答案"但推理错误。如何辨别和利用高价值经验是关键。

本文目标：(1) 什么构成有价值的推理经验？(2) 如何系统管理和复用这些经验？

切入角度：从问题难度和轨迹熵两个维度系统分析经验价值。发现中等难度（正确率25%-75%）提供最强优化信号，低熵轨迹对应更高质量的推理链。

核心 idea：按难度分桶管理经验，优先采样中等难度+低熵轨迹进行混合on-policy/off-policy优化。

方法详解¶

整体框架¶

ExGRPO在GRPO基础上增加三阶段经验管理（收集→分桶→选择）和混合策略优化。维护一个replay buffer存储历史成功轨迹，每批训练混合on-policy新样本和off-policy经验样本。

关键设计¶

经验收集与分桶 (Experience Collection & Partition):
- 功能：收集成功轨迹到buffer，按问题最新正确率分桶（Easy/Medium/Hard）
- 核心思路：正确率\(\text{Acc}(q^*) = k/K\)，分为Easy[75%,100%)/Medium(25%,75%]/Hard(0,25%]。引入Retired Set：所有rollout全对的问题移出buffer，避免过拟合简单题
- 设计动机：不同难度的问题提供不同强度的学习信号，需要差异化处理
经验选择 (Experience Selection):
- 功能：两步选择——先按难度分布采样问题，再选低熵轨迹
- 核心思路：问题采样概率 \(p \propto \mathcal{N}(\text{Acc}(q^*); \mu=0.5, \sigma=1)\)，优先中等难度；每个问题选当前策略下最低熵的轨迹 \(o^* \leftarrow \arg\min_{o_i} H(o_i; \pi_\theta)\)
- 设计动机：中等难度提供最强优化信号（实验验证）；低熵对应更高质量推理链（经验验证：高熵轨迹往往推理错误但答案蒙对，反复采样会导致"滚雪球效应"污染训练）
混合策略优化 (Mixed-Policy Optimization):
- 功能：联合优化on-policy新样本和off-policy历史经验，引入importance weighting校正分布偏移
- 核心思路：\(\mathcal{J}_{\text{ExGRPO}} = (1-\rho)\cdot\mathcal{J}_{\text{on}} + \rho\cdot\mathcal{J}_{\text{exp}}\)，off-policy部分用重要性权重 \(w_t^*(θ) = \frac{\pi_\theta(o_t^*|q^*)}{\pi_{\theta_{\text{past}}}(o_t^*|q^*)}\)
- 设计动机：纯off-policy回放低熵轨迹可能伤害探索，混合on-policy保持探索能力。重要性权重确保无偏梯度估计。

损失函数 / 训练策略¶

基于Dr.GRPO：去掉长度归一化和标准差归一化
混合比例 \(\rho\) 控制经验样本占比
Off-policy样本构建混合优势估计组：1个历史轨迹 + K-1个新rollout

实验关键数据¶

主实验¶

5个骨干模型(1.5B-8B)在数学和通用推理上的增益：

模型	数学平均增益	通用推理增益	说明
Qwen2.5-Math-1.5B	+3-4分	+7-8分	各benchmark
Qwen2.5-Math-7B	+3-4分	+7-8分	AIME/AMC等
Llama-3.1-8B	稳定训练	显著提升	on-policy坍塌
LUFFY模型	持续改进	持续改进	on-policy坍塌

消融实验¶

配置	数学指标	说明
Full ExGRPO	最优	完整方案
w/o 难度分桶(随机采样)	下降	中等难度优先很重要
w/o 低熵选择	下降	低熵轨迹质量更高
w/o 重要性权重	下降	分布偏移需要校正
w/o Retired Set	下降	过拟合简单题

关键发现¶

ExGRPO在弱模型(Llama-3.1-8B)和强模型(LUFFY)上稳定训练，而on-policy GRPO崩溃
中等难度问题贡献最大，Hard组贡献最少但不应完全丢弃（提供互补信号）
高熵正确轨迹->推理错误但答案正确的"蒙对"现象在replay中被放大（滚雪球效应），低熵选择有效避免
经验回放使平均训练开销不增反降（因为复用历史rollout减少了生成次数）

亮点与洞察¶

经验价值的系统分析：首次从问题难度和轨迹熵两个维度分析RLVR中经验的价值，发现简洁有力——中等难度+低熵。这个insight对整个RLVR领域都有指导意义。
"滚雪球效应"的发现：高熵轨迹虽然答案对但推理错误，反复采样会污染训练。论文发现了模型学会"用代码块做数学题"的退化案例，直接归因到高熵经验。
Retired Set设计：将已完全解决的问题移出buffer，简单但有效——防止过拟合简单题，让资源聚焦在有学习价值的中等难度问题上。

局限与展望¶

难度分桶的阈值(25%/75%)是固定的，随训练进行模型能力变化时应动态调整
熵作为轨迹质量代理指标并非完美——某些情况下高熵也可能有价值（如探索新解法）
仅在数学推理上验证，代码推理等其他领域的最优经验特征可能不同
经验的"过时"问题——历史轨迹在策略更新后可能已不再最优

评分¶

新颖性: ⭐⭐⭐⭐ 经验值分析角度新颖，滚雪球效应发现有洞察力
实验充分度: ⭐⭐⭐⭐⭐ 5个骨干模型、数学+通用benchmarks、详细消融
写作质量: ⭐⭐⭐⭐ 动机分析清晰，preliminary study有说服力
价值: ⭐⭐⭐⭐⭐ 对RLVR训练实践有直接指导意义，insights可迁移