跳转至

Improving Value-based Process Verifier via Low-Cost Variance Reduction

会议: AAAI 2026
arXiv: 2508.10539
代码: 无
领域: LLM推理
关键词: 过程验证器, 方差缩减, 蒙特卡罗采样, 数学推理, 测试时scaling

一句话总结

针对基于值的过程验证器(PRM)训练中蒙特卡罗(MC)估计因采样数有限导致的高方差问题,提出Compound Monte Carlo Sampling (ComMCS)方法,通过线性组合当前步和后续步的MC估计量来无偏地降低方差,无需额外LLM推理开销,在MATH-500上Best-of-32实验中提升2.2个点。

研究背景与动机

  1. 领域现状:基于值的过程验证器通过估计每个推理步骤的状态-动作值(即该步骤最终导致正确答案的概率)来训练,是提升LLM数学推理的有效方法。训练标注依赖MC采样——独立生成多条推理轨迹,计算正确率。

  2. 现有痛点:MC采样数量受LLM推理成本限制(通常仅8-16次),导致值估计的高方差。高方差的训练标注会使验证器学到噪声而非真实值,性能受损。

  3. 核心矛盾:增加采样数能降低方差但成本线性增长;在固定采样数下,MC估计已是最小方差无偏估计量(MVUE),不引入额外信息就无法进一步降低方差。

  4. 本文要解决什么? 在不增加LLM推理开销的前提下,利用已有的多步MC采样结果的时序结构来降低估计方差。

  5. 切入角度:借鉴RL中时序差分(TD)方法的思路——未来步的值估计可用于更新当前步的估计。同一轨迹中后续步的MC估计是免费的额外信息。

  6. 核心idea一句话:线性组合当前步和后续步的MC估计量构造新的无偏估计器,利用Bellman方程的递推关系在不增加采样的条件下降低方差。

方法详解

整体框架

将数学推理建模为MDP → 分析MC估计的统计性质(等价于二项分布采样,MVUE性质)→ 提出ComMCS:通过复合多步MC结果构造新的无偏低方差估计器 → 建模一步值分布来实际计算方差比较 → 用交叉熵损失训练分类式过程验证器。

关键设计

  1. MC估计的统计分析:
  2. 做什么:建立MC估计与二项分布的等价关系,证明其MVUE性质
  3. 核心思路:在二元回报({0,1})的MDP中,\(N\)次MC采样的总成功数服从 \(B(N, V^\pi(s))\)。MC估计 \(\hat{V}^\pi(s) = \frac{1}{N}\sum_i G^{(i)}\) 是无偏的,方差为 \(\frac{V^\pi(s)(1-V^\pi(s))}{N}\)。作为MVUE,固定信息量下方差不可再降
  4. 设计动机:明确了问题根源——是方差而非偏差导致性能瓶颈,且需要"额外信息"才能突破

  5. Compound Monte Carlo Sampling (ComMCS):

  6. 做什么:线性组合当前步和后续步的MC估计量,构造新的无偏低方差估计器
  7. 核心思路:由Bellman方程 \(V^\pi(s_n) = \mathbb{E}_\pi[V^\pi(s_m | s_n)]\),后续步的MC估计也是当前步值的无偏估计。取 \(\hat{V}_{n \to m} = \sum_i c_i \cdot \hat{V}^\pi(s_{n+i})\)\(\sum c_i = 1\)),仍然无偏但可能有不同方差。复合方差公式:\(\mathbb{V}[\hat{V}_{n\to m}|s_n] = \sum_i c_i^2 (\frac{1}{N}\mathbb{E}[\sigma_i^2|s_n] + \mathbb{V}[V_i|s_n])\)
  8. 设计动机:后续步的MC结果在同一轨迹中已经收集,利用这些免费信息来降低方差

  9. 一步值分布建模:

  10. 做什么:用分类分布近似下一步值分布,据此估计方差并确定最优组合系数
  11. 核心思路:实际中 \(m=n+1\)(仅用下一步),方差公式简化为两项。假设值分布为高斯分布族,用验证器的softmax输出建模分类分布近似值分布。用MC估计值作为真值代理来估算方差,启发式找最优系数 \(c_n, c_{n+1}\)
  12. 设计动机:完全精确的方差计算不可行,但分类分布+高斯假设的近似足够实用

损失函数 / 训练策略

  • 用交叉熵损失训练验证器,对MC估计值做分箱处理得到分类标签
  • 迭代优化:先用标准MC训练一轮验证器 → 用验证器估计值分布 → 计算复合系数 → 用ComMCS估计值重新训练
  • 值分布支持集和分箱策略影响精度

实验关键数据

主实验

MATH-500上Best-of-N采样(DeepSeek-Math-7B-Instruct):

方法 Best-of-8 Best-of-16 Best-of-32
BCE (baseline) 71.4 74.2 76.8
MSE (regression) 70.8 73.6 76.2
ComMCS (ours) 73.2 76.0 79.0

GSM8K上也有一致提升。

消融实验

配置 MATH-500 BoN-32 说明
BCE baseline 76.8 标准MC估计训练
+ ComMCS 79.0 +2.2点,方差缩减有效
MSE regression 76.2 回归式优化
+ ComMCS 79.0 +2.8点,对回归基线提升更大

关键发现

  • ComMCS一致提升:在Best-of-N和Beam Search两种搜索策略下均有效,跨DeepSeek和Qwen两个模型系列
  • 效果等价于增加25%采样量:8次采样+ComMCS的方差约等于10次采样的方差(图1)
  • 分类式建模优于回归式:即使不用ComMCS,BCE(分类)也优于MSE(回归),说明值分布建模本身有价值
  • 方差缩减在中等难度区间最有效:真实值接近0.5时MC方差最大,ComMCS收益也最大

亮点与洞察

  • 理论驱动的实用方法:从MVUE性质出发推导出ComMCS,理论基础扎实。关键洞察是MC估计的时序结构蕴含免费信息
  • 零额外推理成本:与增加采样数的暴力方法不同,ComMCS仅利用已收集的后续步MC结果,不需要任何额外LLM调用
  • 与TD学习的类比:将RL中TD方法的思想巧妙迁移到PRM训练场景,但保持了无偏性(TD是有偏的)

局限性 / 可改进方向

  • 高斯分布假设可能不成立:值分布在实际中可能是多模态或偏态的
  • 仅限二元回报MDP:理论推导依赖回报∈{0,1}的假设,对部分分数回报不直接适用
  • 迭代训练增加了工程复杂性:需要先训练基础验证器→估计值分布→重新训练
  • 提升幅度相对有限:2-3点的提升在竞争激烈的数学推理基准上意义有限

相关工作与启发

  • vs ORM (Outcome RM): ORM只看最终结果,PRM逐步评估;ComMCS是PRM内部的优化不影响框架选择
  • vs Math-Shepherd等PRM: 这些方法关注如何更好地采样轨迹,ComMCS关注如何更好地利用已有采样结果,两者互补
  • vs RL中的方差缩减: TD有偏但低方差,ComMCS无偏且低方差,是更优的折衷

评分

  • 新颖性: ⭐⭐⭐⭐ 从MVUE角度分析PRM训练标注的方差问题是原创视角,ComMCS理论基础扎实
  • 实验充分度: ⭐⭐⭐⭐ 两个基准+两种搜索策略+两个模型系列,但数据量和模型规模偏小
  • 写作质量: ⭐⭐⭐⭐ 理论推导严谨,数学符号清晰,但实践部分的近似讨论不够详细
  • 价值: ⭐⭐⭐⭐ 对PRM训练有实用改进,零额外成本这一特性很有工程价值