EpicPRM: An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning¶

会议: ACL 2025
arXiv: 2503.02382
代码: https://github.com/xiaolizh1/EpicPRM
领域: LLM推理
关键词: 过程奖励模型, 数学推理, 蒙特卡洛估计, 自适应二分搜索, 数据质量

一句话总结¶

本文提出 EpicPRM 框架，通过基于困惑度的贡献量化和自适应二分搜索算法，高效精确地构建高质量过程监督训练数据集 Epic50k，其训练的 PRM 以不到 PRM800k 10% 的数据量达到了相当甚至更好的监督性能。

研究背景与动机¶

领域现状：过程监督奖励模型（PRM）通过逐步监督推理过程，已被证明比结果监督更有效地提升 LLM 的数学推理能力。
现有痛点：构建过程监督数据的两种方法各有缺陷——人工标注（如 PRM800k）质量高但成本巨大，自动标注（如 Math-Shepherd）成本低但标注质量差。
核心矛盾：自动标注中的蒙特卡洛（MC）估计使用 \(M/N\) 计数法估计正确概率存在固有的采样偶然性，且完成者（completer）的纠错能力会导致即使有错误步骤也能得到正确答案（如图1所示），进一步降低标注精度。
本文目标：在有限计算预算下，构建数量小但质量高的过程监督数据集。
切入角度：(1) 用困惑度替代计数来量化 MC 估计；(2) 量化每个步骤对最终答案的贡献；(3) 用自适应二分搜索替代顺序搜索来定位第一个错误步骤。
核心 idea：数据质量比数量更重要——50k 高精度标注的数据可以超过 800k 粗糙标注的效果。

方法详解¶

整体框架¶

EpicPRM 包含三个关键创新：(1) 用困惑度加权的 MC 估计（\(MC_{PPL}\)）替代简单计数，提高估计精度；(2) 量化每一步的贡献来判断步骤正确性；(3) 自适应二分搜索算法，根据题目难度动态调整搜索起点和采样数量，大幅降低标注成本。

关键设计¶

困惑度加权 MC 估计（\(MC_{PPL}\)）:
- 功能：更精确地估计从给定状态获得正确答案的概率
- 核心思路：对每个 rollout 计算其困惑度 \(PPL(j; s_t, \theta_k)\)，用对数困惑度作为权重替代简单的正确/错误计数。使用 \(K\) 个不同能力的 completer 各采样 \(N\) 个 rollouts，最终估计为 \(MC_{PPL}(s_t, \theta_{1:K}) = \frac{1}{K}\sum_{k=1}^{K}\frac{\sum_{m=1}^{M}\log PPL(j;s_t,\theta_k)}{\sum_{n=1}^{N}\log PPL(j;s_t,\theta_k)}\)。
- 设计动机：计数法在采样量不足时有严重的偶然性（如2次抛硬币都是正面不代表100%概率）。困惑度直接计算模型生成每个 rollout 的概率，消除了采样偶然性的影响。
步骤贡献量化:
- 功能：判断每一步对最终正确答案的贡献，识别无贡献或负贡献的步骤
- 核心思路：计算每个步骤的贡献为 \(\Delta MC_{PPL}(s_t) = MC_{PPL}(s_t) - MC_{PPL}(s_{t-1})\)。如果 \(\Delta < 0\)，说明该步骤降低了获得正确答案的概率，很可能是错误步骤。
- 设计动机：传统方法仅看当前状态的 MC 值，忽略了错误步骤后 completer 可能自行纠错的问题。通过看步骤间的增量变化，可以更精确地定位错误。
自适应二分搜索:
- 功能：高效定位链式推理中的第一个错误步骤
- 核心思路：(1) 根据题目难度动态调整搜索起始位置——简单题的第一个错误通常在后面，难题在前面（如图2所示）；(2) 根据难度动态调整每个位置的 rollout 采样数——简单题需要更少的采样就能准确判断。相比传统二分搜索减少了约20%的 MC 估计次数，相比顺序搜索减少了 64.39% 的标注成本。
- 设计动机：OmegaPRM 的标准二分搜索不考虑题目难度，对所有题目使用相同策略，浪费了计算资源。

损失函数 / 训练策略¶

使用多个不同能力的 LLM（如 Qwen2.5-Math-7B-Instruct、DeepSeek-Math-7B-Instruct 等）作为 completers 生成多样化的推理链
PRM 训练使用标准的 token-level 分类损失

实验关键数据¶

主实验¶

数据集	数据量	Best-of-N (GSM8K)	Best-of-N (MATH)
PRM800k	800k	78.2	42.0
Math-Shepherd	440k	80.2	42.6
Epic50k	50k	82.1	44.8

消融实验¶

配置	关键指标	说明
MC count vs MC_PPL	MC_PPL更优	困惑度加权消除采样偶然性
顺序搜索 vs 标准二分 vs 自适应二分	自适应最优	成本降低64.39%，精度更高
单一completer vs 多completer	多completer更优	不同模型互补，覆盖更多推理路径
步骤贡献 vs 不使用	贡献量化更优	更精确识别错误步骤

关键发现¶

数据质量远比数量重要：50k 高质量数据 > 800k 中等质量数据
题目难度与第一个错误步骤位置有很强的相关性（简单题错误多在后面，难题错误多在前面）
completer 的纠错能力是传统 MC 估计失准的主要原因

亮点与洞察¶

困惑度替代计数是一个非常简洁有效的改进——它利用了模型本身的概率信息，无需增加采样量就能提高估计精度。这个思路可以迁移到任何使用 MC 估计的场景。
自适应二分搜索利用题目难度先验信息优化搜索策略，体现了"根据问题特性调整算法"的工程智慧。
数据质量 > 数据量的发现，对 PRM 训练有重要指导意义。

局限与展望¶

目前仅在数学推理上验证，未推广到代码生成等其他需要过程监督的场景
困惑度加权假设 completer 的概率校准良好，实际上可能存在校准偏差
多 completer 策略增加了推理成本，需要权衡收益

评分¶

新颖性: ⭐⭐⭐⭐ 困惑度加权和自适应二分搜索各自不全新但组合有效
实验充分度: ⭐⭐⭐⭐ 消融分析全面，与多个数据集对比
写作质量: ⭐⭐⭐⭐ 方法动机清晰，数学推导完整
价值: ⭐⭐⭐⭐ 开源数据集和框架，对 PRM 训练有实用价值