Improving Value-based Process Verifier via Low-Cost Variance Reduction¶

会议: AAAI 2026
arXiv: 2508.10539
代码: 无
领域: LLM推理
关键词: 过程验证器, 方差缩减, 蒙特卡罗采样, 数学推理, 测试时scaling

一句话总结¶

针对基于值的过程验证器(PRM)训练中蒙特卡罗(MC)估计因采样数有限导致的高方差问题，提出Compound Monte Carlo Sampling (ComMCS)方法，通过线性组合当前步和后续步的MC估计量来无偏地降低方差，无需额外LLM推理开销，在MATH-500上Best-of-32实验中提升2.2个点。

研究背景与动机¶

领域现状：基于值的过程验证器通过估计每个推理步骤的状态-动作值（即该步骤最终导致正确答案的概率）来训练，是提升LLM数学推理的有效方法。训练标注依赖MC采样——独立生成多条推理轨迹，计算正确率。
现有痛点：MC采样数量受LLM推理成本限制（通常仅8-16次），导致值估计的高方差。高方差的训练标注会使验证器学到噪声而非真实值，性能受损。
核心矛盾：增加采样数能降低方差但成本线性增长；在固定采样数下，MC估计已是最小方差无偏估计量(MVUE)，不引入额外信息就无法进一步降低方差。
本文要解决什么？ 在不增加LLM推理开销的前提下，利用已有的多步MC采样结果的时序结构来降低估计方差。
切入角度：借鉴RL中时序差分(TD)方法的思路——未来步的值估计可用于更新当前步的估计。同一轨迹中后续步的MC估计是免费的额外信息。
核心idea一句话：线性组合当前步和后续步的MC估计量构造新的无偏估计器，利用Bellman方程的递推关系在不增加采样的条件下降低方差。

方法详解¶

整体框架¶

将数学推理建模为MDP → 分析MC估计的统计性质（等价于二项分布采样，MVUE性质）→ 提出ComMCS：通过复合多步MC结果构造新的无偏低方差估计器 → 建模一步值分布来实际计算方差比较 → 用交叉熵损失训练分类式过程验证器。

关键设计¶

MC估计的统计分析:
做什么：建立MC估计与二项分布的等价关系，证明其MVUE性质
核心思路：在二元回报({0,1})的MDP中，\(N\)次MC采样的总成功数服从 \(B(N, V^\pi(s))\)。MC估计 \(\hat{V}^\pi(s) = \frac{1}{N}\sum_i G^{(i)}\) 是无偏的，方差为 \(\frac{V^\pi(s)(1-V^\pi(s))}{N}\)。作为MVUE，固定信息量下方差不可再降
设计动机：明确了问题根源——是方差而非偏差导致性能瓶颈，且需要"额外信息"才能突破
Compound Monte Carlo Sampling (ComMCS):
做什么：线性组合当前步和后续步的MC估计量，构造新的无偏低方差估计器
核心思路：由Bellman方程 \(V^\pi(s_n) = \mathbb{E}_\pi[V^\pi(s_m | s_n)]\)，后续步的MC估计也是当前步值的无偏估计。取 \(\hat{V}_{n \to m} = \sum_i c_i \cdot \hat{V}^\pi(s_{n+i})\)（\(\sum c_i = 1\)），仍然无偏但可能有不同方差。复合方差公式：\(\mathbb{V}[\hat{V}_{n\to m}|s_n] = \sum_i c_i^2 (\frac{1}{N}\mathbb{E}[\sigma_i^2|s_n] + \mathbb{V}[V_i|s_n])\)
设计动机：后续步的MC结果在同一轨迹中已经收集，利用这些免费信息来降低方差
一步值分布建模:
做什么：用分类分布近似下一步值分布，据此估计方差并确定最优组合系数
核心思路：实际中 \(m=n+1\)（仅用下一步），方差公式简化为两项。假设值分布为高斯分布族，用验证器的softmax输出建模分类分布近似值分布。用MC估计值作为真值代理来估算方差，启发式找最优系数 \(c_n, c_{n+1}\)
设计动机：完全精确的方差计算不可行，但分类分布+高斯假设的近似足够实用

损失函数 / 训练策略¶

用交叉熵损失训练验证器，对MC估计值做分箱处理得到分类标签
迭代优化：先用标准MC训练一轮验证器 → 用验证器估计值分布 → 计算复合系数 → 用ComMCS估计值重新训练
值分布支持集和分箱策略影响精度

实验关键数据¶

主实验¶

MATH-500上Best-of-N采样（DeepSeek-Math-7B-Instruct）：

方法	Best-of-8	Best-of-16	Best-of-32
BCE (baseline)	71.4	74.2	76.8
MSE (regression)	70.8	73.6	76.2
ComMCS (ours)	73.2	76.0	79.0

GSM8K上也有一致提升。

消融实验¶

配置	MATH-500 BoN-32	说明
BCE baseline	76.8	标准MC估计训练
+ ComMCS	79.0	+2.2点，方差缩减有效
MSE regression	76.2	回归式优化
+ ComMCS	79.0	+2.8点，对回归基线提升更大

关键发现¶

ComMCS一致提升：在Best-of-N和Beam Search两种搜索策略下均有效，跨DeepSeek和Qwen两个模型系列
效果等价于增加25%采样量：8次采样+ComMCS的方差约等于10次采样的方差（图1）
分类式建模优于回归式：即使不用ComMCS，BCE(分类)也优于MSE(回归)，说明值分布建模本身有价值
方差缩减在中等难度区间最有效：真实值接近0.5时MC方差最大，ComMCS收益也最大

亮点与洞察¶

理论驱动的实用方法：从MVUE性质出发推导出ComMCS，理论基础扎实。关键洞察是MC估计的时序结构蕴含免费信息
零额外推理成本：与增加采样数的暴力方法不同，ComMCS仅利用已收集的后续步MC结果，不需要任何额外LLM调用
与TD学习的类比：将RL中TD方法的思想巧妙迁移到PRM训练场景，但保持了无偏性（TD是有偏的）

局限性 / 可改进方向¶

高斯分布假设可能不成立：值分布在实际中可能是多模态或偏态的
仅限二元回报MDP：理论推导依赖回报∈{0,1}的假设，对部分分数回报不直接适用
迭代训练增加了工程复杂性：需要先训练基础验证器→估计值分布→重新训练
提升幅度相对有限：2-3点的提升在竞争激烈的数学推理基准上意义有限

评分¶

新颖性: ⭐⭐⭐⭐ 从MVUE角度分析PRM训练标注的方差问题是原创视角，ComMCS理论基础扎实
实验充分度: ⭐⭐⭐⭐ 两个基准+两种搜索策略+两个模型系列，但数据量和模型规模偏小
写作质量: ⭐⭐⭐⭐ 理论推导严谨，数学符号清晰，但实践部分的近似讨论不够详细
价值: ⭐⭐⭐⭐ 对PRM训练有实用改进，零额外成本这一特性很有工程价值