笔记2:PRM必要吗?RL隐式诱导PRM能力¶
会议: NeurIPS 2025
arXiv: 2505.11227
代码: DeepSeek-R1 & QwQ-32B repo
领域: LLM推理, 强化学习
关键词: Process Reward Model, 奖励模型, RL训练, Self-PRM, 推理验证
一句话总结¶
令人惊讶地,纯RL训练无需显式PRM监督即可诱发出强大的过程理解能力,且现有PRMs在SOTA模型上甚至不如简单多数投票有效。
研究背景与动机¶
- PRM通常认知:流行观点认为PRM对开发推理能力是必需的,但DeepSeek-R1证明纯RL可将特则成功
- PRM三大困境:(i)难以定义细粒度"步骤",(ii)人工标注成本高,(iii)奖励黑客风险大
- 关键疑问:纯RL训练(不含过程监督)是否能培培出既能解决问题又能评估推理质量的模型?
- 核心发现前景:问题解决与过程监督是互补的两个维度,在RL过程中协同演化
方法详解¶
整体框架¶
核心观点:将数学推理与过程奖励分离为两个评价维度,通过纯RL观察其自然演化: 1. 奖励信号来源:仅使用最终答案正确性(规则奖励),不提供步骤级标注 2. 模型对象:DeepSeek-R1、QwQ-32B、o1,都采用基于RL的推理策略 3. 评价基准:ProcessBench,四个数据集(GSM8K、MATH、OlympiadBench、OmniMATH)
关键设计:Self-PRM框架¶
模型采用自反射机制重排序输出:给定多个生成的解\(\{y_i\}_{i=1}^N\),模型利用内部奖励信号\(V(x,y)\)进行自评估: $\(y_{rank} = \arg\max_i V(x,y_i)\)$ 其中\(V\)是模型隐式学到的价值函数,无需显式训练。
实验关键数据¶
ProcessBench上的评估结果¶
| 模型(类别) | GSM8K Error | GSM8K Correct | MATH F1 | OlympiadBench F1 | 平均F1 |
|---|---|---|---|---|---|
| 纯RL模型 | |||||
| DeepSeek-R1 | 84.1% | 95.3% | 86.5% | 83.5 | 83.5 |
| QwQ-32B | 84.1% | 97.4% | 86.5% | 83.7 | 83.7 |
| 显式PRM模型 | |||||
| Qwen2.5-PRM-72B | 62.8% | 96.9% | 61.8% | 54.6 | 61.2 |
| Math-Shepherd-7B | 32.4% | 91.7% | 47.9% | 24.8 | 31.5 |
关键对比分析¶
| 对象 | 结论 |
|---|---|
| RL模型 vs 显式PRM | RL训练的DeepSeek-R1/QwQ-32B F1分别为83.5/83.7,远优于最佳显式PRM(73.5) |
| Self-PRM vs Majority Voting | Self-PRM在大样本(N≥32)下始终优于多数投票,但困难问题上精度<10% |
| 现有PRM效用 | 应用于DeepSeek-R1时,PRMs性能不升反降,多数投票更优 |
关键发现¶
- 协同演化:问题求解与过程理解在RL训练中自然共演进,无需显式分离
- PRM局限:现有PRMs在强RL模型上失效,可能因为模型已隐式学到更好的过程认知
- 自评价挑战:Self-PRM在困难问题上低精度(频繁假正例),说明奖励对齐仍需改进
亮点与洞察¶
- 范式颠覆:挑战了"PRM必需"的传统认知,指出纯RL已内生PRM能力
- 实证深度:系统对比4个数据集、17个模型,通过卡方检验验证统计显著性
- Self-PRM创新:提出模型自反射排序方案,展现RL诱导的内部评价逻辑
- 可扩展性启示:大规模RL(而非显式监督)可能是提升多层推理的正确方向
局限性¶
- 研究限于数学推理,其他推理域(代码、科学论述)的PRM必要性未知
- Self-PRM精度不足(<10%难题),制约实际应用
- 未深入分析RL如何诱发过程理解的机制,仍是黑箱
相关工作¶
- RLHF与推理模型(OpenAI o1、DeepSeek-R1)的RL缩放成果
- PRM研究(PRM800K、AlphaMath、过程级监督策略)
- 过程级评价与验证(Chain-of-Thought评价、多步推理监督)
评分¶
⭐⭐⭐⭐⭐