笔记7：价值引导搜索 - 高效链式思考推理¶

会议: NeurIPS 2025
arXiv: 2504.18428
代码: GitHub
领域: LLM推理, 测试时计算, 价值模型
关键词: 价值模型, 块级搜索, 束搜索, VGS, 推理效率

一句话总结¶

提出Value-Guided Search(VGS)——通过token级价值模型指导块级束搜索，无需预定义"步骤"，相对多数投票在竞赛数学上准确度提升+14.5%，同时推理计算效率提升30%，超越现有PRM方案。

研究背景与动机¶

PRM可扩展性瓶颈：现有PRM需细粒度步骤标注(成本高、定义模糊)与大量Monte Carlo采样，难以扩展至长推理
计算效率困境：推理模型推理长、生成成本高，必需高效测试时计算策略以降低推理FLOP
价值模型优势：价值预测仅需最终结果标签，无需步骤标注，能否成为PRM的强大替代？
关键设计：如何有效在长CoT中应用token级价值信号进行块级搜索决策？

方法详解¶

整体框架¶

端到端三阶段：(1)价值模型训练 → (2)数据采集 → (3)块级搜索应用

关键设计¶

1. 回归-分类价值模型训练：将价值预测分解为分类任务(未完成、错误、正确)： $$\mathcal{L}(θ,\mathcal{B}) = \frac{1}{|\mathcal{B}|}\sum_{(x,y,z,κ)∈\mathcal{B}}\frac{1}{|z|}\sum_{h=1}^{|z|}\ell_{ce}(f_θ(x,y,z^{:h}),κ)$$

关键：对roll-out中每个token位置$h$都计算损失(超级取样)，充分利用自回归采样的等价性。价值函数： $$V_θ(x) := f_θ(x)[1]及\mathbb{E}_{z∼π_{ref}}[R(x,z)|x]$$ 直接预测完成路径的期望奖励。

2. 高效数据采集流水线： - 预过滤：OpenR1-Math 94k→50k(去除不可解题与模糊答) - 采样：从4个DeepSeek规模(1.5B-32B)各采14条roll-in(思考截断点) - 完成：每roll-in从π_ref采4条roll-out，总56个样本/问题 - 后过滤：移除全部>roll-out无解问题(~10%)

成本对比： | 方法 | 标注粒度 | 成本 | |:---:|:---:|:---| | PRM800K | 人工每步 | 极高 | | Math-Shepherd | MC每步 |很高 | | Qwen2.5-PRM | LLM-as-Judge每步 | 高 | | VGS(本方) | 仅最终标签 | 低 |

3. 块级束搜索：生成过程分块(block_size=4096 tokens)，块内独立采样并由价值模型评分：

算法1 - 束搜索：

初始化B=N/w个beam
while存在未完成beam:
  从各beam采w个块
  选择价值最高的块续接
end while

聚合策略： - 最优-n(BoN)：选最高价值响应 - 加权多数投票(WMV)：按价值权重，分组多数投票

关键发现：WMV超越BoN，因多样生成间稳定性更强。

\[\text{WMV}: \arg\max_{p_k}\sum_{y_i∈p_k}w_i, \quad w_i = V(x,y_i)\]

实验关键数据¶

AIME-25 & HMMT-25竞赛数学¶

模型配置	AIME-25准确度	HMMT-25准确度	平均(%)	相对MV提升%
DeepSeek-1.5B$(N=256$采样$)$
多数投票(MV)	38.9±1.9	24.3±2.9	31.6±1.7	基准
VGS(DeepSeek-VM-1.5B)	46.7±0.7	32.8±0.8	39.8±0.5	+26.0%
VGS(Qwen-PRM-7B)	38.9±1.4	24.2±0.2	31.6±0.7	-0.1%
DeepSeek-7B$(N=128$采样$)$
MV基准	56.5±1.6	33.8±2.5	45.2±1.5	-
VGS(DeepSeek-VM-1.5B)	59.4±0.8	41.1±1.6	50.3±0.9	+11.3%

推理效率对比 - 达目标准确度的FLOP消耗¶

目标准确度	DeepSeek-1.5B MV	DeepSeek-1.5B VGS	FLOP节省%
35%	256生成	128生成	50%
37%	512生成	192生成	62.5%
39%	1024生成	256生成	75%

关键发现¶

超越PRM：DeepSeekVM-1.5B超所有7B PRM(Qwen/Math-Shepherd)，同规模下优;16.2%F1
关键缓解：WMV聚合关键，相比BoN固定提升2-4%，体现多样化的重要性
效率革命：达同等准确度的推理FLOP削减50-75%，推出实际部署可行性
扩展特性：单一固定的束宽与块大小(无per-problem调优)就取得强果，简化部署

亮点与洞察¶

方法简洁性：回避PRM对细粒度步骤定义的苦恼，token级分类端到端学习
数据高效：无需专家标注与step-wise标记，仅需最终答案即可训练泛化的价值模型
实用工程：数据、模型、代码全开源，降低复现与应用门槛
性能-效率均衡：既提升准确度(+14%)又优化计算(FLOP↓50-75%)，两全其美

局限性¶

评估仅限竞赛数学(AIME/HMMT)，泛科学推理/代码适用性未知
束宽与块大小为超参，虽固定值已优但problem-adaptive策略(per-instance难度估计)未探
与MPS(多采样搜索)比较不充分，其他搜索聚合方案(树搜索、图搜索)的potential未开掘

评分¶

⭐⭐⭐⭐⭐

模型配置	AIME-25准确度	HMMT-25准确度	平均(%)	相对MV提升%
DeepSeek-1.5B\((N=256\)采样\()\)
多数投票(MV)	38.9±1.9	24.3±2.9	31.6±1.7	基准
VGS(DeepSeek-VM-1.5B)	46.7±0.7	32.8±0.8	39.8±0.5	+26.0%
VGS(Qwen-PRM-7B)	38.9±1.4	24.2±0.2	31.6±0.7	-0.1%
DeepSeek-7B\((N=128\)采样\()\)
MV基准	56.5±1.6	33.8±2.5	45.2±1.5	-
VGS(DeepSeek-VM-1.5B)	59.4±0.8	41.1±1.6	50.3±0.9	+11.3%