ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs¶
会议: NeurIPS 2025
arXiv: 2506.18896
代码: github.com/Gen-Verse/ReasonFlux
领域: LLM推理
关键词: 过程奖励模型, 轨迹感知, 数据选择, 强化学习, 测试时缩放
一句话总结¶
ReasonFlux-PRM 发现现有 PRM 无法有效评估推理模型的中间思考轨迹(trajectory),提出融合步骤级对齐/质量/连贯性分数和轨迹级模板引导奖励的 trajectory-aware PRM,在离线数据选择(SFT +12.1%)、在线 RL 奖励(+4.5%)和测试时 Best-of-N 缩放(+6.3%)三个场景中均显著优于包括 Qwen2.5-Math-PRM-72B 在内的强基线。
研究背景与动机¶
- 领域现状:PRM(过程奖励模型)为 LLM 推理的每个中间步骤提供奖励信号,已被广泛用于 RL 训练和测试时搜索。现有 PRM(如 Math-Shepherd、Qwen-Math-PRM)主要训练于模型的最终输出响应——结构化、线性、有组织的 step-by-step CoT。
- 现有痛点:随着 DeepSeek-R1、OpenAI-o1 等推理模型的兴起,模型输出变成了"轨迹-响应"两段式:先是长篇、不太有组织的中间思考轨迹(含分支、回溯、自我修正),然后是简洁的最终响应。现有 PRM 在评估中间思考轨迹时表现很差——分数分布高度重叠,无法区分不同质量的轨迹,甚至会选出比人类策划更差的训练数据。
- 核心矛盾:思考轨迹与最终响应有本质差异:(1) 轨迹包含分支/回溯(非线性),响应是线性的;(2) 轨迹的全局连贯性弱,响应是精心组织的。训练在响应上的 PRM 天然无法泛化到轨迹。
- 本文要解决什么? 如何设计一个能同时有效评估中间思考轨迹和最终响应的通用 PRM?
- 切入角度:同时引入步骤级和轨迹级两个层次的奖励信号——步骤级用对齐分数、质量分数、连贯性分数的 softmax 加权融合;轨迹级用"模板引导"方法评估整体推理策略的可迁移性。
- 核心idea一句话:用多维步骤级奖励(对齐+质量+连贯)和模板引导的轨迹级奖励联合训练 PRM,使其能评估推理模型的完整思考过程而非仅最终输出。
方法详解¶
整体框架¶
给定轨迹-响应数据 \((s, a)\)(\(s\) 是思考轨迹,\(a\) 是最终响应),ReasonFlux-PRM 为每步思考 \(s_t\) 计算步骤级奖励 \(r_t^{\text{step}}\)(由对齐、质量、连贯三个分数 softmax 加权),同时为整条轨迹计算轨迹级奖励 \(r^{\text{final}}\)(通过模板引导验证)。两级奖励联合训练 PRM。训练好的 PRM 可用于三个场景:离线数据选择、GRPO 在线奖励、Best-of-N 测试时缩放。
关键设计¶
- 步骤级奖励的三维度设计:
- 对齐分数 \(r_t^{\text{align}} = \text{sim}(\Phi(s_t), \Phi(a_t))\):用预训练编码器计算每步思考与对应最终响应步骤的余弦相似度,鼓励与最终答案相关的思考步骤
- 质量分数 \(r_t^{\text{qual}} = J(s_t | x, s_{<t}, a)\):用 GPT-4o 作为 judge 评估每步的逻辑正确性、内部连贯性和向最终答案的推进
- 连贯性分数 \(r_t^{\text{coh}}\):用对比互信息公式度量相邻步骤间的语义连贯性,防止话题跳转
- 三者通过 softmax 加权融合为 \(r_t^{\text{step}}\)
-
设计动机:仅用对齐会惩罚复杂但有效的探索性步骤;仅用质量不能捕捉步间关系;三者互补
-
模板引导的轨迹级奖励:
- 做什么:评估整条轨迹中蕴含的高层推理策略是否可复现
- 核心思路:先用 GPT-4o 从轨迹-响应中提取推理模板 \(\mathcal{T}\)(高层步骤序列),然后让策略模型 \(\pi_\theta\) 按模板解题生成 \(N\) 个响应,计算平均正确率作为轨迹级奖励:\(r^{\text{final}} = \frac{1}{N}\sum_j \mathbb{I}(y^{(j)} \text{ is correct})\)
-
设计动机:步骤级奖励关注局部质量,模板引导奖励评估"这个推理策略到底能不能解对题"——一个整体有效但局部步骤不太优雅的轨迹仍得到高分
-
联合训练目标:
- \(\mathcal{L}_{\text{total}} = \lambda_{\text{step}} \cdot \frac{1}{T}\sum_t \mathcal{L}(R_\phi(s_t), r_t^{\text{step}}) + \lambda_{\text{final}} \cdot \mathcal{L}(R_\phi(x,y), r^{\text{final}})\)
- 使用 MSE 损失,在 OpenThoughts-114K 数据集上训练
损失函数 / 训练策略¶
- 基座模型:Qwen2.5-1.5B/7B-Instruct
- 训练数据:OpenThoughts-114K(DeepSeek-R1 生成的思考轨迹+响应),从中采样 1K 轨迹构建模板引导奖励
- 在线 RL 集成:将 PRM 奖励与 GRPO 的规则奖励加权融合 \(r^{\text{new}} = (1-\beta) r^{\text{out}} + \beta \hat{r}\)
实验关键数据¶
主实验¶
离线数据选择(SFT Qwen2.5-14B-Instruct,从 59K s1 数据选 1K)
| 数据来源 | AIME24 | AIME25 | MATH500 | GPQA-Diamond |
|---|---|---|---|---|
| Human-curated (s1k) | 33.3 | 33.3 | 78.8 | 41.4 |
| Qwen2.5-Math-PRM-72B | 33.3 | 26.7 | 77.0 | 39.4 |
| ReasonFlux-PRM-7B | 40.0 | 33.3 | 84.8 | 47.5 |
在线 RL(GRPO 策略优化,DeepSeek-R1-Distill-Qwen-7B)
| 奖励信号 | AIME24 | AIME25 | MATH500 | GPQA-Diamond |
|---|---|---|---|---|
| Rule-based | 50.2 | 38.3 | 89.6 | 47.1 |
| Qwen-Math-PRM-7B | 51.2 | 40.8 | 92.8 | 49.1 |
| ReasonFlux-PRM-7B | 54.6 | 44.2 | 94.8 | 51.6 |
消融实验¶
| 配置 | AIME25 | MATH500 | 说明 |
|---|---|---|---|
| \(\alpha=0.1\)(弱轨迹级) | 6.7 | 81.2 | 局部信号不够 |
| \(\alpha=0.8\) | 33.3 | 83.6 | 较好 |
| \(\alpha=1.0\) | 33.3 | 84.8 | MATH500 最优 |
| \(\alpha=1.5\) | 40.0 | 83.2 | AIME25 最优 |
关键发现¶
- 7B PRM 超越 72B PRM:ReasonFlux-PRM-7B 在数据选择上超越 Qwen2.5-Math-PRM-72B 约 6-8%,甚至超越人类策划的 s1k 数据
- 1K 精选数据 > 59K 原始数据:用 ReasonFlux-PRM 选择 1K 样本训练超过用全部 59K 原始数据训练(MATH500: 84.8 vs ~68)
- 端到端 SFT+RL 叠加效果显著:ReasonFlux-PRM 选数据 SFT + ReasonFlux-PRM 奖励 RL = MATH500 89.8%(比 backbone 77.0% 提升 12.8%)
- PRM 规模越大效果越好:ReasonFlux-PRM 从 1.5B 到 7B,MATH500 提升 3.8%
- 现有 PRM 在思考轨迹上的分数分布高度重叠,几乎无法区分 R1 和 Gemini 的轨迹质量
亮点与洞察¶
- 正式指出并验证了"PRM 对思考轨迹失效"这一重要问题:这个发现对所有使用 PRM 评估推理模型输出的工作都有重要启示——不能直接将训练在最终响应上的 PRM 应用到内部思考过程
- 模板引导的轨迹级奖励设计巧妙:不直接评判轨迹对错,而是提取其高层策略并验证策略的可复现性——这避免了对"探索性步骤"的过度惩罚
- 一个 PRM 覆盖三个应用场景:离线数据选择、在线 RL 奖励、测试时缩放——通用性极强
局限性 / 可改进方向¶
- 依赖 GPT-4o 作为 judge 生成质量分数和推理模板,增加了构建成本
- 当前主要验证在数学和科学推理上,对开放式任务(对话、代码)的泛化性未知
- 步骤分割策略简单(以 "\n\n" 分割),对于结构更复杂的轨迹可能不够精细
- \(\alpha\) 参数目前是手动调的,未来可考虑自适应学习
相关工作与启发¶
- vs Qwen2.5-Math-PRM: 训练在最终响应上,无法区分思考轨迹质量。ReasonFlux-PRM-7B 在所有任务上超越 72B 版本
- vs Math-Shepherd / Skywork-PRM: 这些 PRM 在思考轨迹上表现更差,甚至选出的数据不如随机选择
- vs s1k (人类策划): ReasonFlux-PRM 选择的数据在 MATH500 上超越人类策划 6%,说明自动化数据选择可以超越人类专家
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统地研究 PRM 对思考轨迹的失效问题,三维步骤级奖励设计全面
- 实验充分度: ⭐⭐⭐⭐⭐ 离线/在线/测试时三场景 + 消融 + 效率分析 + 案例研究 + 端到端验证
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰,三个 Takeaway 很有说服力
- 价值: ⭐⭐⭐⭐⭐ 直接解决了推理模型时代 PRM 的核心问题,7B 模型即开源可用