GPO: Learning from Critical Steps to Improve LLM Reasoning¶

会议: NeurIPS 2025
arXiv: 2509.16456
代码: 有（随论文提供）
领域: LLM推理
关键词: 关键步骤识别, 强化学习, 推理优化, 优势函数, 过程级优化

一句话总结¶

GPO 通过蒙特卡洛模拟估计推理轨迹中每一步的优势函数，识别出"关键步骤"（模型犯错的转折点），然后从关键步骤重置并重新采样轨迹用于训练，可以即插即用地提升 PPO、DPO、KTO、SimPO、ORPO 等多种优化算法在推理任务上的表现。

研究背景与动机¶

领域现状：当前 LLM 推理能力的提升主要依赖后训练方法，如 PPO（在线 RL）、DPO/SimPO/KTO（离线偏好优化）。这些方法已被 DeepSeek-R1、OpenAI O1 等证明有效。
现有痛点：这些方法将整条推理轨迹视为一个整体进行优化，但 LLM 推理错误往往源于某个特定的"关键步骤"——在这一步模型如果处理得当就能成功，处理不当就会导致后续全部崩溃。整体优化无法有效聚焦于这些关键步骤。
核心矛盾：Satori 等工作虽然也引入了轨迹重置的思路，但它只是随机选择重置点，没有真正识别哪一步才是关键的。随机重置的信号效率低。
本文要解决什么？ 如何自动定位推理轨迹中的关键步骤，并构造更有信息量的训练数据？
切入角度：借鉴可解释 RL（XRL）中的关键状态识别思路，将推理的每一步视为 MDP 中的一个 action，用优势函数的绝对值来衡量每步的重要性——优势值最大的步骤就是"关键步骤"。
核心idea一句话：用优势函数定位推理轨迹中的关键步骤，从该步骤重置并重采样轨迹，让训练聚焦于模型最需要学习的关键转折点。

方法详解¶

整体框架¶

GPO 的流程为：给定问题 \(x\)，用当前策略 \(\pi\) 生成推理轨迹 \(y = (y_0, y_1, \ldots, y_{K-1})\)（按换行分割为多步），然后对每一步估计优势函数 \(A^\pi(x, y_{0:i-1}; y_i)\)，选出优势值最大的步骤 \(y_m\) 作为关键步骤，从 \(y_m\) 处截断并重新用 \(\pi\) 生成新的轨迹 \(y'\)，最后将新轨迹加入训练数据用于 PPO/DPO 等算法的训练。

关键设计¶

关键步骤识别（Critical Step Identification）:
做什么：在一条推理轨迹中找到对最终结果影响最大的那一步
核心思路：将推理过程建模为 MDP，每步的优势函数定义为 \(A^\pi(x, y_{0:i-1}; y_i) = Q^\pi(x, y_{0:i-1}; y_i) - Q^\pi(x, y_{0:i-2}; y_{i-1})\)，通过蒙特卡洛（MC）模拟估计。具体做法是从每个步骤继续采样多条完整轨迹，统计正确率来近似 Q 值，选出优势值最大的步骤
设计动机：优势值最大意味着"从这一步继续"和"从前一步继续"之间的成功率差异最大，说明这一步是成功与失败的分水岭。相比 Satori 的随机选择，这种方式能精准定位模型的薄弱环节
轨迹重置与重采样（Trajectory Reset & Resample）:
做什么：从识别出的关键步骤处截断原轨迹，重新采样后续推理路径
核心思路：保留关键步骤之前的正确推理前缀，让模型从这个关键位置重新探索，生成新的轨迹。对于 PPO，新轨迹直接加入 online buffer；对于 DPO，正确和错误的续写构成偏好对
设计动机：这样生成的训练数据在关键决策点有更多的多样性，让模型在最需要学习的地方获得更丰富的经验
即插即用的通用框架:
做什么：GPO 可以无缝集成到 PPO（Procedure-I）和 DPO/KTO/SimPO/ORPO（Procedure-II）中
核心思路：对于在线方法（PPO），直接将重采样轨迹加入 buffer 并用原始奖励信号训练；对于离线方法（DPO），从关键步骤开始采样两条轨迹构成新的偏好对。两种场景下超参数保持不变
设计动机：现有方法众多，GPO 不是替代而是增强，最大化其适用范围

损失函数 / 训练策略¶

GPO 本身不引入新的损失函数，而是改变训练数据的构造方式。理论上，对于 DPO，GPO 等价于以优势函数为权重的加权 RL（Theorem 5.3）：\(\max_\pi \mathbb{E}[\sum_i \log \pi(y_i|x, y_{0:i-1}) \cdot \exp(A^{\pi_{ref}}(x, y_{0:i-1}; y_i) / \beta)]\)。对于在线 PPO，作者证明用 advantage 加权的采样策略可以收紧 regret bound。

实验关键数据¶

主实验¶

基础模型：DeepSeek-R1-Distill-Qwen-7B，使用 LoRA 微调。

算法	BBH	MATH	GSM8K	MMLU	MMLUPro	AIME-24	AIME-25
Base Model	59.97	71.60	86.50	54.09	38.80	13.33	16.67
PPO	61.82	79.60	86.96	56.66	47.47	26.67	23.33
GPO-PPO	63.48	87.80	87.44	59.39	51.05	30.00	26.67
DPO	63.20	82.40	86.05	57.08	48.28	20.00	20.00
GPO-DPO	64.25	86.80	88.48	58.93	51.93	26.67	26.67
KTO	62.86	77.20	89.31	59.42	49.02	20.00	20.00
GPO-KTO	64.31	79.60	90.25	61.35	50.52	23.33	26.67
SimPO	61.97	72.20	86.58	56.93	45.70	20.00	23.33
GPO-SimPO	62.58	74.00	88.35	57.44	47.74	23.33	26.67

消融实验¶

配置	BBH	MATH	说明
PPO	61.82	79.60	基线
PPO + Random Reset (Satori)	~62	79.9	随机重置
GPO-PPO	63.48	87.9	优势引导重置
DPO	63.20	82.40	基线
DPO + Random Reset (Satori)	~63.5	~83.5	随机重置
GPO-DPO	64.25	86.8	优势引导重置

关键发现¶

GPO 在 MATH 上提升最为显著：PPO → GPO-PPO 提升 8.2%，DPO → GPO-DPO 提升 4.4%，说明关键步骤识别对数学推理尤为重要
在所有 5 种优化算法和 7 个数据集上，GPO 都带来了一致的提升，验证了方法的通用性
MC 样本数从 2 到 12 性能持续提升，超过 12 后趋于饱和，默认使用 4 个样本即可获得不错效果
从 1.5B 到 70B 模型都能获得一致提升，表明方法在不同规模上都有效
用户研究中 50 名参与者在 5 个问题上选择 GPO 识别的关键步骤的比例分别为 44%、68%、88%、76%、56%，高度吻合人类判断

亮点与洞察¶

将 XRL 的关键状态识别思想迁移到 LLM 推理：这个类比非常巧妙——推理轨迹 = RL 轨迹，推理步骤 = action，关键步骤 = 关键状态。这种跨领域迁移值得借鉴
即插即用设计：GPO 不改变底层优化算法的任何超参数或损失函数，只改变数据构造方式，这使得它可以被广泛采用。这种"改数据不改算法"的策略是实用性很强的设计范式
理论和实验双重验证：既有 regret bound 的理论保证，又有跨算法、跨数据集、跨模型规模的全面实验，还有用户研究作为定性验证

局限性 / 可改进方向¶

MC 模拟带来约 1.8-1.9x 的计算开销（PPO 训练时间约翻倍），对于超长推理链开销更大
当前使用简单的按换行分割推理步骤 + 短步骤合并的启发式规则，对于更复杂的推理结构（树形/图形推理）可能需要更精细的分割策略
可以考虑用 GAE（广义优势估计）替代 MC 模拟来降低方差并减少计算开销
关键步骤的评估目前依赖下游性能和费时的人工评判，缺乏自动化的评估指标

评分¶

新颖性: ⭐⭐⭐⭐ 核心 idea 清晰优雅（从 XRL 迁移关键状态识别），但轨迹重置的思路在 Satori 等工作中已有先例
实验充分度: ⭐⭐⭐⭐⭐ 5 种算法 × 7 个数据集 × 多规模模型 + 消融 + 用户研究，非常全面
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，理论和实验互补，图示直观
价值: ⭐⭐⭐⭐ 即插即用的通用策略，实用性强，但计算开销限制了其在超大规模模型上的应用