ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs¶

会议: NeurIPS 2025
arXiv: 2506.18896
代码: github.com/Gen-Verse/ReasonFlux
领域: LLM推理
关键词: 过程奖励模型, 轨迹感知, 数据选择, 强化学习, 测试时缩放

一句话总结¶

ReasonFlux-PRM 发现现有 PRM 无法有效评估推理模型的中间思考轨迹（trajectory），提出融合步骤级对齐/质量/连贯性分数和轨迹级模板引导奖励的 trajectory-aware PRM，在离线数据选择（SFT +12.1%）、在线 RL 奖励（+4.5%）和测试时 Best-of-N 缩放（+6.3%）三个场景中均显著优于包括 Qwen2.5-Math-PRM-72B 在内的强基线。

研究背景与动机¶

领域现状：PRM（过程奖励模型）为 LLM 推理的每个中间步骤提供奖励信号，已被广泛用于 RL 训练和测试时搜索。现有 PRM（如 Math-Shepherd、Qwen-Math-PRM）主要训练于模型的最终输出响应——结构化、线性、有组织的 step-by-step CoT。
现有痛点：随着 DeepSeek-R1、OpenAI-o1 等推理模型的兴起，模型输出变成了"轨迹-响应"两段式：先是长篇、不太有组织的中间思考轨迹（含分支、回溯、自我修正），然后是简洁的最终响应。现有 PRM 在评估中间思考轨迹时表现很差——分数分布高度重叠，无法区分不同质量的轨迹，甚至会选出比人类策划更差的训练数据。
核心矛盾：思考轨迹与最终响应有本质差异：(1) 轨迹包含分支/回溯（非线性），响应是线性的；(2) 轨迹的全局连贯性弱，响应是精心组织的。训练在响应上的 PRM 天然无法泛化到轨迹。
本文要解决什么？ 如何设计一个能同时有效评估中间思考轨迹和最终响应的通用 PRM？
切入角度：同时引入步骤级和轨迹级两个层次的奖励信号——步骤级用对齐分数、质量分数、连贯性分数的 softmax 加权融合；轨迹级用"模板引导"方法评估整体推理策略的可迁移性。
核心idea一句话：用多维步骤级奖励（对齐+质量+连贯）和模板引导的轨迹级奖励联合训练 PRM，使其能评估推理模型的完整思考过程而非仅最终输出。

方法详解¶

整体框架¶

给定轨迹-响应数据 \((s, a)\)（\(s\) 是思考轨迹，\(a\) 是最终响应），ReasonFlux-PRM 为每步思考 \(s_t\) 计算步骤级奖励 \(r_t^{\text{step}}\)（由对齐、质量、连贯三个分数 softmax 加权），同时为整条轨迹计算轨迹级奖励 \(r^{\text{final}}\)（通过模板引导验证）。两级奖励联合训练 PRM。训练好的 PRM 可用于三个场景：离线数据选择、GRPO 在线奖励、Best-of-N 测试时缩放。

关键设计¶

步骤级奖励的三维度设计:
对齐分数 \(r_t^{\text{align}} = \text{sim}(\Phi(s_t), \Phi(a_t))\)：用预训练编码器计算每步思考与对应最终响应步骤的余弦相似度，鼓励与最终答案相关的思考步骤
质量分数 \(r_t^{\text{qual}} = J(s_t | x, s_{<t}, a)\)：用 GPT-4o 作为 judge 评估每步的逻辑正确性、内部连贯性和向最终答案的推进
连贯性分数 \(r_t^{\text{coh}}\)：用对比互信息公式度量相邻步骤间的语义连贯性，防止话题跳转
三者通过 softmax 加权融合为 \(r_t^{\text{step}}\)
设计动机：仅用对齐会惩罚复杂但有效的探索性步骤；仅用质量不能捕捉步间关系；三者互补
模板引导的轨迹级奖励:
做什么：评估整条轨迹中蕴含的高层推理策略是否可复现
核心思路：先用 GPT-4o 从轨迹-响应中提取推理模板 \(\mathcal{T}\)（高层步骤序列），然后让策略模型 \(\pi_\theta\) 按模板解题生成 \(N\) 个响应，计算平均正确率作为轨迹级奖励：\(r^{\text{final}} = \frac{1}{N}\sum_j \mathbb{I}(y^{(j)} \text{ is correct})\)
设计动机：步骤级奖励关注局部质量，模板引导奖励评估"这个推理策略到底能不能解对题"——一个整体有效但局部步骤不太优雅的轨迹仍得到高分
联合训练目标:
\(\mathcal{L}_{\text{total}} = \lambda_{\text{step}} \cdot \frac{1}{T}\sum_t \mathcal{L}(R_\phi(s_t), r_t^{\text{step}}) + \lambda_{\text{final}} \cdot \mathcal{L}(R_\phi(x,y), r^{\text{final}})\)
使用 MSE 损失，在 OpenThoughts-114K 数据集上训练

损失函数 / 训练策略¶

基座模型：Qwen2.5-1.5B/7B-Instruct
训练数据：OpenThoughts-114K（DeepSeek-R1 生成的思考轨迹+响应），从中采样 1K 轨迹构建模板引导奖励
在线 RL 集成：将 PRM 奖励与 GRPO 的规则奖励加权融合 \(r^{\text{new}} = (1-\beta) r^{\text{out}} + \beta \hat{r}\)

实验关键数据¶

主实验¶

离线数据选择（SFT Qwen2.5-14B-Instruct，从 59K s1 数据选 1K）

数据来源	AIME24	AIME25	MATH500	GPQA-Diamond
Human-curated (s1k)	33.3	33.3	78.8	41.4
Qwen2.5-Math-PRM-72B	33.3	26.7	77.0	39.4
ReasonFlux-PRM-7B	40.0	33.3	84.8	47.5

在线 RL（GRPO 策略优化，DeepSeek-R1-Distill-Qwen-7B）

奖励信号	AIME24	AIME25	MATH500	GPQA-Diamond
Rule-based	50.2	38.3	89.6	47.1
Qwen-Math-PRM-7B	51.2	40.8	92.8	49.1
ReasonFlux-PRM-7B	54.6	44.2	94.8	51.6

消融实验¶

配置	AIME25	MATH500	说明
\(\alpha=0.1\)（弱轨迹级）	6.7	81.2	局部信号不够
\(\alpha=0.8\)	33.3	83.6	较好
\(\alpha=1.0\)	33.3	84.8	MATH500 最优
\(\alpha=1.5\)	40.0	83.2	AIME25 最优

关键发现¶

7B PRM 超越 72B PRM：ReasonFlux-PRM-7B 在数据选择上超越 Qwen2.5-Math-PRM-72B 约 6-8%，甚至超越人类策划的 s1k 数据
1K 精选数据 > 59K 原始数据：用 ReasonFlux-PRM 选择 1K 样本训练超过用全部 59K 原始数据训练（MATH500: 84.8 vs ~68）
端到端 SFT+RL 叠加效果显著：ReasonFlux-PRM 选数据 SFT + ReasonFlux-PRM 奖励 RL = MATH500 89.8%（比 backbone 77.0% 提升 12.8%）
PRM 规模越大效果越好：ReasonFlux-PRM 从 1.5B 到 7B，MATH500 提升 3.8%
现有 PRM 在思考轨迹上的分数分布高度重叠，几乎无法区分 R1 和 Gemini 的轨迹质量

亮点与洞察¶

正式指出并验证了"PRM 对思考轨迹失效"这一重要问题：这个发现对所有使用 PRM 评估推理模型输出的工作都有重要启示——不能直接将训练在最终响应上的 PRM 应用到内部思考过程
模板引导的轨迹级奖励设计巧妙：不直接评判轨迹对错，而是提取其高层策略并验证策略的可复现性——这避免了对"探索性步骤"的过度惩罚
一个 PRM 覆盖三个应用场景：离线数据选择、在线 RL 奖励、测试时缩放——通用性极强

局限性 / 可改进方向¶

依赖 GPT-4o 作为 judge 生成质量分数和推理模板，增加了构建成本
当前主要验证在数学和科学推理上，对开放式任务（对话、代码）的泛化性未知
步骤分割策略简单（以 "\n\n" 分割），对于结构更复杂的轨迹可能不够精细
\(\alpha\) 参数目前是手动调的，未来可考虑自适应学习

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统地研究 PRM 对思考轨迹的失效问题，三维步骤级奖励设计全面
实验充分度: ⭐⭐⭐⭐⭐ 离线/在线/测试时三场景 + 消融 + 效率分析 + 案例研究 + 端到端验证
写作质量: ⭐⭐⭐⭐ 问题分析清晰，三个 Takeaway 很有说服力
价值: ⭐⭐⭐⭐⭐ 直接解决了推理模型时代 PRM 的核心问题，7B 模型即开源可用