GPO: Learning from Critical Steps to Improve LLM Reasoning¶
会议: NeurIPS 2025
arXiv: 2509.16456
代码: 有(随论文提供)
领域: LLM推理
关键词: 关键步骤识别, 强化学习, 推理优化, 优势函数, 过程级优化
一句话总结¶
GPO 通过蒙特卡洛模拟估计推理轨迹中每一步的优势函数,识别出"关键步骤"(模型犯错的转折点),然后从关键步骤重置并重新采样轨迹用于训练,可以即插即用地提升 PPO、DPO、KTO、SimPO、ORPO 等多种优化算法在推理任务上的表现。
研究背景与动机¶
- 领域现状:当前 LLM 推理能力的提升主要依赖后训练方法,如 PPO(在线 RL)、DPO/SimPO/KTO(离线偏好优化)。这些方法已被 DeepSeek-R1、OpenAI O1 等证明有效。
- 现有痛点:这些方法将整条推理轨迹视为一个整体进行优化,但 LLM 推理错误往往源于某个特定的"关键步骤"——在这一步模型如果处理得当就能成功,处理不当就会导致后续全部崩溃。整体优化无法有效聚焦于这些关键步骤。
- 核心矛盾:Satori 等工作虽然也引入了轨迹重置的思路,但它只是随机选择重置点,没有真正识别哪一步才是关键的。随机重置的信号效率低。
- 本文要解决什么? 如何自动定位推理轨迹中的关键步骤,并构造更有信息量的训练数据?
- 切入角度:借鉴可解释 RL(XRL)中的关键状态识别思路,将推理的每一步视为 MDP 中的一个 action,用优势函数的绝对值来衡量每步的重要性——优势值最大的步骤就是"关键步骤"。
- 核心idea一句话:用优势函数定位推理轨迹中的关键步骤,从该步骤重置并重采样轨迹,让训练聚焦于模型最需要学习的关键转折点。
方法详解¶
整体框架¶
GPO 的流程为:给定问题 \(x\),用当前策略 \(\pi\) 生成推理轨迹 \(y = (y_0, y_1, \ldots, y_{K-1})\)(按换行分割为多步),然后对每一步估计优势函数 \(A^\pi(x, y_{0:i-1}; y_i)\),选出优势值最大的步骤 \(y_m\) 作为关键步骤,从 \(y_m\) 处截断并重新用 \(\pi\) 生成新的轨迹 \(y'\),最后将新轨迹加入训练数据用于 PPO/DPO 等算法的训练。
关键设计¶
- 关键步骤识别(Critical Step Identification):
- 做什么:在一条推理轨迹中找到对最终结果影响最大的那一步
- 核心思路:将推理过程建模为 MDP,每步的优势函数定义为 \(A^\pi(x, y_{0:i-1}; y_i) = Q^\pi(x, y_{0:i-1}; y_i) - Q^\pi(x, y_{0:i-2}; y_{i-1})\),通过蒙特卡洛(MC)模拟估计。具体做法是从每个步骤继续采样多条完整轨迹,统计正确率来近似 Q 值,选出优势值最大的步骤
-
设计动机:优势值最大意味着"从这一步继续"和"从前一步继续"之间的成功率差异最大,说明这一步是成功与失败的分水岭。相比 Satori 的随机选择,这种方式能精准定位模型的薄弱环节
-
轨迹重置与重采样(Trajectory Reset & Resample):
- 做什么:从识别出的关键步骤处截断原轨迹,重新采样后续推理路径
- 核心思路:保留关键步骤之前的正确推理前缀,让模型从这个关键位置重新探索,生成新的轨迹。对于 PPO,新轨迹直接加入 online buffer;对于 DPO,正确和错误的续写构成偏好对
-
设计动机:这样生成的训练数据在关键决策点有更多的多样性,让模型在最需要学习的地方获得更丰富的经验
-
即插即用的通用框架:
- 做什么:GPO 可以无缝集成到 PPO(Procedure-I)和 DPO/KTO/SimPO/ORPO(Procedure-II)中
- 核心思路:对于在线方法(PPO),直接将重采样轨迹加入 buffer 并用原始奖励信号训练;对于离线方法(DPO),从关键步骤开始采样两条轨迹构成新的偏好对。两种场景下超参数保持不变
- 设计动机:现有方法众多,GPO 不是替代而是增强,最大化其适用范围
损失函数 / 训练策略¶
GPO 本身不引入新的损失函数,而是改变训练数据的构造方式。理论上,对于 DPO,GPO 等价于以优势函数为权重的加权 RL(Theorem 5.3):\(\max_\pi \mathbb{E}[\sum_i \log \pi(y_i|x, y_{0:i-1}) \cdot \exp(A^{\pi_{ref}}(x, y_{0:i-1}; y_i) / \beta)]\)。对于在线 PPO,作者证明用 advantage 加权的采样策略可以收紧 regret bound。
实验关键数据¶
主实验¶
基础模型:DeepSeek-R1-Distill-Qwen-7B,使用 LoRA 微调。
| 算法 | BBH | MATH | GSM8K | MMLU | MMLUPro | AIME-24 | AIME-25 |
|---|---|---|---|---|---|---|---|
| Base Model | 59.97 | 71.60 | 86.50 | 54.09 | 38.80 | 13.33 | 16.67 |
| PPO | 61.82 | 79.60 | 86.96 | 56.66 | 47.47 | 26.67 | 23.33 |
| GPO-PPO | 63.48 | 87.80 | 87.44 | 59.39 | 51.05 | 30.00 | 26.67 |
| DPO | 63.20 | 82.40 | 86.05 | 57.08 | 48.28 | 20.00 | 20.00 |
| GPO-DPO | 64.25 | 86.80 | 88.48 | 58.93 | 51.93 | 26.67 | 26.67 |
| KTO | 62.86 | 77.20 | 89.31 | 59.42 | 49.02 | 20.00 | 20.00 |
| GPO-KTO | 64.31 | 79.60 | 90.25 | 61.35 | 50.52 | 23.33 | 26.67 |
| SimPO | 61.97 | 72.20 | 86.58 | 56.93 | 45.70 | 20.00 | 23.33 |
| GPO-SimPO | 62.58 | 74.00 | 88.35 | 57.44 | 47.74 | 23.33 | 26.67 |
消融实验¶
| 配置 | BBH | MATH | 说明 |
|---|---|---|---|
| PPO | 61.82 | 79.60 | 基线 |
| PPO + Random Reset (Satori) | ~62 | 79.9 | 随机重置 |
| GPO-PPO | 63.48 | 87.9 | 优势引导重置 |
| DPO | 63.20 | 82.40 | 基线 |
| DPO + Random Reset (Satori) | ~63.5 | ~83.5 | 随机重置 |
| GPO-DPO | 64.25 | 86.8 | 优势引导重置 |
关键发现¶
- GPO 在 MATH 上提升最为显著:PPO → GPO-PPO 提升 8.2%,DPO → GPO-DPO 提升 4.4%,说明关键步骤识别对数学推理尤为重要
- 在所有 5 种优化算法和 7 个数据集上,GPO 都带来了一致的提升,验证了方法的通用性
- MC 样本数从 2 到 12 性能持续提升,超过 12 后趋于饱和,默认使用 4 个样本即可获得不错效果
- 从 1.5B 到 70B 模型都能获得一致提升,表明方法在不同规模上都有效
- 用户研究中 50 名参与者在 5 个问题上选择 GPO 识别的关键步骤的比例分别为 44%、68%、88%、76%、56%,高度吻合人类判断
亮点与洞察¶
- 将 XRL 的关键状态识别思想迁移到 LLM 推理:这个类比非常巧妙——推理轨迹 = RL 轨迹,推理步骤 = action,关键步骤 = 关键状态。这种跨领域迁移值得借鉴
- 即插即用设计:GPO 不改变底层优化算法的任何超参数或损失函数,只改变数据构造方式,这使得它可以被广泛采用。这种"改数据不改算法"的策略是实用性很强的设计范式
- 理论和实验双重验证:既有 regret bound 的理论保证,又有跨算法、跨数据集、跨模型规模的全面实验,还有用户研究作为定性验证
局限性 / 可改进方向¶
- MC 模拟带来约 1.8-1.9x 的计算开销(PPO 训练时间约翻倍),对于超长推理链开销更大
- 当前使用简单的按换行分割推理步骤 + 短步骤合并的启发式规则,对于更复杂的推理结构(树形/图形推理)可能需要更精细的分割策略
- 可以考虑用 GAE(广义优势估计)替代 MC 模拟来降低方差并减少计算开销
- 关键步骤的评估目前依赖下游性能和费时的人工评判,缺乏自动化的评估指标
相关工作与启发¶
- vs Satori: Satori 也使用轨迹重置但随机选择重置点,GPO 用优势函数精确定位关键步骤,在 MATH 上 GPO-PPO (87.9%) 大幅超过 Satori 式随机重置 (79.9%)
- vs Step-DPO: Step-DPO 对每个 token 做 step-level DPO,GPO 在推理步骤层面操作(语义更有意义),且理论证明 GPO 等价于 advantage-weighted RL
- vs VinePPO: VinePPO 也使用细粒度的信用分配,但 GPO 的关键区别在于它通过重采样生成新的训练数据而非仅改变梯度权重
评分¶
- 新颖性: ⭐⭐⭐⭐ 核心 idea 清晰优雅(从 XRL 迁移关键状态识别),但轨迹重置的思路在 Satori 等工作中已有先例
- 实验充分度: ⭐⭐⭐⭐⭐ 5 种算法 × 7 个数据集 × 多规模模型 + 消融 + 用户研究,非常全面
- 写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰,理论和实验互补,图示直观
- 价值: ⭐⭐⭐⭐ 即插即用的通用策略,实用性强,但计算开销限制了其在超大规模模型上的应用