跳转至

笔记2:PRM必要吗?RL隐式诱导PRM能力

会议: NeurIPS 2025
arXiv: 2505.11227
代码: DeepSeek-R1 & QwQ-32B repo
领域: LLM推理, 强化学习
关键词: Process Reward Model, 奖励模型, RL训练, Self-PRM, 推理验证

一句话总结

令人惊讶地,纯RL训练无需显式PRM监督即可诱发出强大的过程理解能力,且现有PRMs在SOTA模型上甚至不如简单多数投票有效。

研究背景与动机

  1. PRM通常认知:流行观点认为PRM对开发推理能力是必需的,但DeepSeek-R1证明纯RL可将特则成功
  2. PRM三大困境:(i)难以定义细粒度"步骤",(ii)人工标注成本高,(iii)奖励黑客风险大
  3. 关键疑问:纯RL训练(不含过程监督)是否能培培出既能解决问题又能评估推理质量的模型?
  4. 核心发现前景:问题解决与过程监督是互补的两个维度,在RL过程中协同演化

方法详解

整体框架

核心观点:将数学推理与过程奖励分离为两个评价维度,通过纯RL观察其自然演化: 1. 奖励信号来源:仅使用最终答案正确性(规则奖励),不提供步骤级标注 2. 模型对象:DeepSeek-R1、QwQ-32B、o1,都采用基于RL的推理策略 3. 评价基准:ProcessBench,四个数据集(GSM8K、MATH、OlympiadBench、OmniMATH)

关键设计:Self-PRM框架

模型采用自反射机制重排序输出:给定多个生成的解\(\{y_i\}_{i=1}^N\),模型利用内部奖励信号\(V(x,y)\)进行自评估: $\(y_{rank} = \arg\max_i V(x,y_i)\)$ 其中\(V\)是模型隐式学到的价值函数,无需显式训练。

实验关键数据

ProcessBench上的评估结果

模型(类别) GSM8K Error GSM8K Correct MATH F1 OlympiadBench F1 平均F1
纯RL模型
DeepSeek-R1 84.1% 95.3% 86.5% 83.5 83.5
QwQ-32B 84.1% 97.4% 86.5% 83.7 83.7
显式PRM模型
Qwen2.5-PRM-72B 62.8% 96.9% 61.8% 54.6 61.2
Math-Shepherd-7B 32.4% 91.7% 47.9% 24.8 31.5

关键对比分析

对象 结论
RL模型 vs 显式PRM RL训练的DeepSeek-R1/QwQ-32B F1分别为83.5/83.7,远优于最佳显式PRM(73.5)
Self-PRM vs Majority Voting Self-PRM在大样本(N≥32)下始终优于多数投票,但困难问题上精度<10%
现有PRM效用 应用于DeepSeek-R1时,PRMs性能不升反降,多数投票更优

关键发现

  1. 协同演化:问题求解与过程理解在RL训练中自然共演进,无需显式分离
  2. PRM局限:现有PRMs在强RL模型上失效,可能因为模型已隐式学到更好的过程认知
  3. 自评价挑战:Self-PRM在困难问题上低精度(频繁假正例),说明奖励对齐仍需改进

亮点与洞察

  1. 范式颠覆:挑战了"PRM必需"的传统认知,指出纯RL已内生PRM能力
  2. 实证深度:系统对比4个数据集、17个模型,通过卡方检验验证统计显著性
  3. Self-PRM创新:提出模型自反射排序方案,展现RL诱导的内部评价逻辑
  4. 可扩展性启示:大规模RL(而非显式监督)可能是提升多层推理的正确方向

局限性

  1. 研究限于数学推理,其他推理域(代码、科学论述)的PRM必要性未知
  2. Self-PRM精度不足(<10%难题),制约实际应用
  3. 未深入分析RL如何诱发过程理解的机制,仍是黑箱

相关工作

  • RLHF与推理模型(OpenAI o1、DeepSeek-R1)的RL缩放成果
  • PRM研究(PRM800K、AlphaMath、过程级监督策略)
  • 过程级评价与验证(Chain-of-Thought评价、多步推理监督)

评分

⭐⭐⭐⭐⭐