跳转至

笔记7:价值引导搜索 - 高效链式思考推理

会议: NeurIPS 2025
arXiv: 2504.18428
代码: GitHub
领域: LLM推理, 测试时计算, 价值模型
关键词: 价值模型, 块级搜索, 束搜索, VGS, 推理效率

一句话总结

提出Value-Guided Search(VGS)——通过token级价值模型指导块级束搜索,无需预定义"步骤",相对多数投票在竞赛数学上准确度提升+14.5%,同时推理计算效率提升30%,超越现有PRM方案。

研究背景与动机

  1. PRM可扩展性瓶颈:现有PRM需细粒度步骤标注(成本高、定义模糊)与大量Monte Carlo采样,难以扩展至长推理
  2. 计算效率困境:推理模型推理长、生成成本高,必需高效测试时计算策略以降低推理FLOP
  3. 价值模型优势:价值预测仅需最终结果标签,无需步骤标注,能否成为PRM的强大替代?
  4. 关键设计:如何有效在长CoT中应用token级价值信号进行块级搜索决策?

方法详解

整体框架

端到端三阶段:(1)价值模型训练 → (2)数据采集 → (3)块级搜索应用

关键设计

1. 回归-分类价值模型训练: 将价值预测分解为分类任务(未完成、错误、正确): $\(\mathcal{L}(θ,\mathcal{B}) = \frac{1}{|\mathcal{B}|}\sum_{(x,y,z,κ)∈\mathcal{B}}\frac{1}{|z|}\sum_{h=1}^{|z|}\ell_{ce}(f_θ(x,y,z^{:h}),κ)\)$

关键:对roll-out中每个token位置\(h\)都计算损失(超级取样),充分利用自回归采样的等价性。价值函数: $\(V_θ(x) := f_θ(x)[1]及\mathbb{E}_{z∼π_{ref}}[R(x,z)|x]\)$ 直接预测完成路径的期望奖励。

2. 高效数据采集流水线: - 预过滤:OpenR1-Math 94k→50k(去除不可解题与模糊答) - 采样:从4个DeepSeek规模(1.5B-32B)各采14条roll-in(思考截断点) - 完成:每roll-in从π_ref采4条roll-out,总56个样本/问题 - 后过滤:移除全部>roll-out无解问题(~10%)

成本对比: | 方法 | 标注粒度 | 成本 | |:---:|:---:|:---| | PRM800K | 人工每步 | 极高 | | Math-Shepherd | MC每步 |很高 | | Qwen2.5-PRM | LLM-as-Judge每步 | 高 | | VGS(本方) | 仅最终标签 | |

3. 块级束搜索: 生成过程分块(block_size=4096 tokens),块内独立采样并由价值模型评分:

算法1 - 束搜索

初始化B=N/w个beam
while存在未完成beam:
  从各beam采w个块
  选择价值最高的块续接
end while

聚合策略: - 最优-n(BoN):选最高价值响应 - 加权多数投票(WMV):按价值权重,分组多数投票

关键发现:WMV超越BoN,因多样生成间稳定性更强。

\[\text{WMV}: \arg\max_{p_k}\sum_{y_i∈p_k}w_i, \quad w_i = V(x,y_i)\]

实验关键数据

AIME-25 & HMMT-25竞赛数学

模型配置 AIME-25准确度 HMMT-25准确度 平均(%) 相对MV提升%
DeepSeek-1.5B\((N=256\)采样\()\)
多数投票(MV) 38.9±1.9 24.3±2.9 31.6±1.7 基准
VGS(DeepSeek-VM-1.5B) 46.7±0.7 32.8±0.8 39.8±0.5 +26.0%
VGS(Qwen-PRM-7B) 38.9±1.4 24.2±0.2 31.6±0.7 -0.1%
DeepSeek-7B\((N=128\)采样\()\)
MV基准 56.5±1.6 33.8±2.5 45.2±1.5 -
VGS(DeepSeek-VM-1.5B) 59.4±0.8 41.1±1.6 50.3±0.9 +11.3%

推理效率对比 - 达目标准确度的FLOP消耗

目标准确度 DeepSeek-1.5B MV DeepSeek-1.5B VGS FLOP节省%
35% 256生成 128生成 50%
37% 512生成 192生成 62.5%
39% 1024生成 256生成 75%

关键发现

  1. 超越PRM:DeepSeekVM-1.5B超所有7B PRM(Qwen/Math-Shepherd),同规模下优;16.2%F1
  2. 关键缓解:WMV聚合关键,相比BoN固定提升2-4%,体现多样化的重要性
  3. 效率革命:达同等准确度的推理FLOP削减50-75%,推出实际部署可行性
  4. 扩展特性:单一固定的束宽与块大小(无per-problem调优)就取得强果,简化部署

亮点与洞察

  1. 方法简洁性:回避PRM对细粒度步骤定义的苦恼,token级分类端到端学习
  2. 数据高效:无需专家标注与step-wise标记,仅需最终答案即可训练泛化的价值模型
  3. 实用工程:数据、模型、代码全开源,降低复现与应用门槛
  4. 性能-效率均衡:既提升准确度(+14%)又优化计算(FLOP↓50-75%),两全其美

局限性

  1. 评估仅限竞赛数学(AIME/HMMT),泛科学推理/代码适用性未知
  2. 束宽与块大小为超参,虽固定值已优但problem-adaptive策略(per-instance难度估计)未探
  3. 与MPS(多采样搜索)比较不充分,其他搜索聚合方案(树搜索、图搜索)的potential未开掘

相关工作

  • 推理模型与测试时计算缩放(o1/DeepSeek-R1/o3)
  • 过程奖励模型与推理指导搜索
  • Token级与步级价值预测

评分

⭐⭐⭐⭐⭐