Improving Value-based Process Verifier via Low-Cost Variance Reduction¶
会议: AAAI 2026
arXiv: 2508.10539
代码: 无
领域: LLM推理
关键词: 过程验证器, 方差缩减, 蒙特卡罗采样, 数学推理, 测试时scaling
一句话总结¶
针对基于值的过程验证器(PRM)训练中蒙特卡罗(MC)估计因采样数有限导致的高方差问题,提出Compound Monte Carlo Sampling (ComMCS)方法,通过线性组合当前步和后续步的MC估计量来无偏地降低方差,无需额外LLM推理开销,在MATH-500上Best-of-32实验中提升2.2个点。
研究背景与动机¶
-
领域现状:基于值的过程验证器通过估计每个推理步骤的状态-动作值(即该步骤最终导致正确答案的概率)来训练,是提升LLM数学推理的有效方法。训练标注依赖MC采样——独立生成多条推理轨迹,计算正确率。
-
现有痛点:MC采样数量受LLM推理成本限制(通常仅8-16次),导致值估计的高方差。高方差的训练标注会使验证器学到噪声而非真实值,性能受损。
-
核心矛盾:增加采样数能降低方差但成本线性增长;在固定采样数下,MC估计已是最小方差无偏估计量(MVUE),不引入额外信息就无法进一步降低方差。
-
本文要解决什么? 在不增加LLM推理开销的前提下,利用已有的多步MC采样结果的时序结构来降低估计方差。
-
切入角度:借鉴RL中时序差分(TD)方法的思路——未来步的值估计可用于更新当前步的估计。同一轨迹中后续步的MC估计是免费的额外信息。
-
核心idea一句话:线性组合当前步和后续步的MC估计量构造新的无偏估计器,利用Bellman方程的递推关系在不增加采样的条件下降低方差。
方法详解¶
整体框架¶
将数学推理建模为MDP → 分析MC估计的统计性质(等价于二项分布采样,MVUE性质)→ 提出ComMCS:通过复合多步MC结果构造新的无偏低方差估计器 → 建模一步值分布来实际计算方差比较 → 用交叉熵损失训练分类式过程验证器。
关键设计¶
- MC估计的统计分析:
- 做什么:建立MC估计与二项分布的等价关系,证明其MVUE性质
- 核心思路:在二元回报({0,1})的MDP中,\(N\)次MC采样的总成功数服从 \(B(N, V^\pi(s))\)。MC估计 \(\hat{V}^\pi(s) = \frac{1}{N}\sum_i G^{(i)}\) 是无偏的,方差为 \(\frac{V^\pi(s)(1-V^\pi(s))}{N}\)。作为MVUE,固定信息量下方差不可再降
-
设计动机:明确了问题根源——是方差而非偏差导致性能瓶颈,且需要"额外信息"才能突破
-
Compound Monte Carlo Sampling (ComMCS):
- 做什么:线性组合当前步和后续步的MC估计量,构造新的无偏低方差估计器
- 核心思路:由Bellman方程 \(V^\pi(s_n) = \mathbb{E}_\pi[V^\pi(s_m | s_n)]\),后续步的MC估计也是当前步值的无偏估计。取 \(\hat{V}_{n \to m} = \sum_i c_i \cdot \hat{V}^\pi(s_{n+i})\)(\(\sum c_i = 1\)),仍然无偏但可能有不同方差。复合方差公式:\(\mathbb{V}[\hat{V}_{n\to m}|s_n] = \sum_i c_i^2 (\frac{1}{N}\mathbb{E}[\sigma_i^2|s_n] + \mathbb{V}[V_i|s_n])\)
-
设计动机:后续步的MC结果在同一轨迹中已经收集,利用这些免费信息来降低方差
-
一步值分布建模:
- 做什么:用分类分布近似下一步值分布,据此估计方差并确定最优组合系数
- 核心思路:实际中 \(m=n+1\)(仅用下一步),方差公式简化为两项。假设值分布为高斯分布族,用验证器的softmax输出建模分类分布近似值分布。用MC估计值作为真值代理来估算方差,启发式找最优系数 \(c_n, c_{n+1}\)
- 设计动机:完全精确的方差计算不可行,但分类分布+高斯假设的近似足够实用
损失函数 / 训练策略¶
- 用交叉熵损失训练验证器,对MC估计值做分箱处理得到分类标签
- 迭代优化:先用标准MC训练一轮验证器 → 用验证器估计值分布 → 计算复合系数 → 用ComMCS估计值重新训练
- 值分布支持集和分箱策略影响精度
实验关键数据¶
主实验¶
MATH-500上Best-of-N采样(DeepSeek-Math-7B-Instruct):
| 方法 | Best-of-8 | Best-of-16 | Best-of-32 |
|---|---|---|---|
| BCE (baseline) | 71.4 | 74.2 | 76.8 |
| MSE (regression) | 70.8 | 73.6 | 76.2 |
| ComMCS (ours) | 73.2 | 76.0 | 79.0 |
GSM8K上也有一致提升。
消融实验¶
| 配置 | MATH-500 BoN-32 | 说明 |
|---|---|---|
| BCE baseline | 76.8 | 标准MC估计训练 |
| + ComMCS | 79.0 | +2.2点,方差缩减有效 |
| MSE regression | 76.2 | 回归式优化 |
| + ComMCS | 79.0 | +2.8点,对回归基线提升更大 |
关键发现¶
- ComMCS一致提升:在Best-of-N和Beam Search两种搜索策略下均有效,跨DeepSeek和Qwen两个模型系列
- 效果等价于增加25%采样量:8次采样+ComMCS的方差约等于10次采样的方差(图1)
- 分类式建模优于回归式:即使不用ComMCS,BCE(分类)也优于MSE(回归),说明值分布建模本身有价值
- 方差缩减在中等难度区间最有效:真实值接近0.5时MC方差最大,ComMCS收益也最大
亮点与洞察¶
- 理论驱动的实用方法:从MVUE性质出发推导出ComMCS,理论基础扎实。关键洞察是MC估计的时序结构蕴含免费信息
- 零额外推理成本:与增加采样数的暴力方法不同,ComMCS仅利用已收集的后续步MC结果,不需要任何额外LLM调用
- 与TD学习的类比:将RL中TD方法的思想巧妙迁移到PRM训练场景,但保持了无偏性(TD是有偏的)
局限性 / 可改进方向¶
- 高斯分布假设可能不成立:值分布在实际中可能是多模态或偏态的
- 仅限二元回报MDP:理论推导依赖回报∈{0,1}的假设,对部分分数回报不直接适用
- 迭代训练增加了工程复杂性:需要先训练基础验证器→估计值分布→重新训练
- 提升幅度相对有限:2-3点的提升在竞争激烈的数学推理基准上意义有限
相关工作与启发¶
- vs ORM (Outcome RM): ORM只看最终结果,PRM逐步评估;ComMCS是PRM内部的优化不影响框架选择
- vs Math-Shepherd等PRM: 这些方法关注如何更好地采样轨迹,ComMCS关注如何更好地利用已有采样结果,两者互补
- vs RL中的方差缩减: TD有偏但低方差,ComMCS无偏且低方差,是更优的折衷
评分¶
- 新颖性: ⭐⭐⭐⭐ 从MVUE角度分析PRM训练标注的方差问题是原创视角,ComMCS理论基础扎实
- 实验充分度: ⭐⭐⭐⭐ 两个基准+两种搜索策略+两个模型系列,但数据量和模型规模偏小
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨,数学符号清晰,但实践部分的近似讨论不够详细
- 价值: ⭐⭐⭐⭐ 对PRM训练有实用改进,零额外成本这一特性很有工程价值