笔记2：PRM必要吗？RL隐式诱导PRM能力¶

会议: NeurIPS 2025
arXiv: 2505.11227
代码: DeepSeek-R1 & QwQ-32B repo
领域: LLM推理, 强化学习
关键词: Process Reward Model, 奖励模型, RL训练, Self-PRM, 推理验证

一句话总结¶

令人惊讶地，纯RL训练无需显式PRM监督即可诱发出强大的过程理解能力，且现有PRMs在SOTA模型上甚至不如简单多数投票有效。

研究背景与动机¶

PRM通常认知：流行观点认为PRM对开发推理能力是必需的，但DeepSeek-R1证明纯RL可将特则成功
PRM三大困境：(i)难以定义细粒度"步骤"，(ii)人工标注成本高，(iii)奖励黑客风险大
关键疑问：纯RL训练(不含过程监督)是否能培培出既能解决问题又能评估推理质量的模型？
核心发现前景：问题解决与过程监督是互补的两个维度，在RL过程中协同演化

方法详解¶

整体框架¶

核心观点：将数学推理与过程奖励分离为两个评价维度，通过纯RL观察其自然演化： 1. 奖励信号来源：仅使用最终答案正确性(规则奖励)，不提供步骤级标注 2. 模型对象：DeepSeek-R1、QwQ-32B、o1，都采用基于RL的推理策略 3. 评价基准：ProcessBench，四个数据集(GSM8K、MATH、OlympiadBench、OmniMATH)

关键设计：Self-PRM框架¶

模型采用自反射机制重排序输出：给定多个生成的解$\{y_i\}_{i=1}^N$，模型利用内部奖励信号$V(x,y)$进行自评估： $$y_{rank} = \arg\max_i V(x,y_i)$$ 其中$V$是模型隐式学到的价值函数，无需显式训练。

实验关键数据¶

ProcessBench上的评估结果¶

模型(类别)	GSM8K Error	GSM8K Correct	MATH F1	OlympiadBench F1	平均F1
纯RL模型
DeepSeek-R1	84.1%	95.3%	86.5%	83.5	83.5
QwQ-32B	84.1%	97.4%	86.5%	83.7	83.7
显式PRM模型
Qwen2.5-PRM-72B	62.8%	96.9%	61.8%	54.6	61.2
Math-Shepherd-7B	32.4%	91.7%	47.9%	24.8	31.5

关键对比分析¶

对象	结论
RL模型 vs 显式PRM	RL训练的DeepSeek-R1/QwQ-32B F1分别为83.5/83.7，远优于最佳显式PRM(73.5)
Self-PRM vs Majority Voting	Self-PRM在大样本(N≥32)下始终优于多数投票，但困难问题上精度<10%
现有PRM效用	应用于DeepSeek-R1时，PRMs性能不升反降，多数投票更优

关键发现¶

协同演化：问题求解与过程理解在RL训练中自然共演进，无需显式分离
PRM局限：现有PRMs在强RL模型上失效，可能因为模型已隐式学到更好的过程认知
自评价挑战：Self-PRM在困难问题上低精度(频繁假正例)，说明奖励对齐仍需改进

亮点与洞察¶

范式颠覆：挑战了"PRM必需"的传统认知，指出纯RL已内生PRM能力
实证深度：系统对比4个数据集、17个模型，通过卡方检验验证统计显著性
Self-PRM创新：提出模型自反射排序方案，展现RL诱导的内部评价逻辑
可扩展性启示：大规模RL(而非显式监督)可能是提升多层推理的正确方向

局限性¶

研究限于数学推理，其他推理域(代码、科学论述)的PRM必要性未知
Self-PRM精度不足(<10%难题)，制约实际应用
未深入分析RL如何诱发过程理解的机制，仍是黑箱

评分¶

⭐⭐⭐⭐⭐