笔记7:价值引导搜索 - 高效链式思考推理¶
会议: NeurIPS 2025
arXiv: 2504.18428
代码: GitHub
领域: LLM推理, 测试时计算, 价值模型
关键词: 价值模型, 块级搜索, 束搜索, VGS, 推理效率
一句话总结¶
提出Value-Guided Search(VGS)——通过token级价值模型指导块级束搜索,无需预定义"步骤",相对多数投票在竞赛数学上准确度提升+14.5%,同时推理计算效率提升30%,超越现有PRM方案。
研究背景与动机¶
- PRM可扩展性瓶颈:现有PRM需细粒度步骤标注(成本高、定义模糊)与大量Monte Carlo采样,难以扩展至长推理
- 计算效率困境:推理模型推理长、生成成本高,必需高效测试时计算策略以降低推理FLOP
- 价值模型优势:价值预测仅需最终结果标签,无需步骤标注,能否成为PRM的强大替代?
- 关键设计:如何有效在长CoT中应用token级价值信号进行块级搜索决策?
方法详解¶
整体框架¶
端到端三阶段:(1)价值模型训练 → (2)数据采集 → (3)块级搜索应用
关键设计¶
1. 回归-分类价值模型训练: 将价值预测分解为分类任务(未完成、错误、正确): $\(\mathcal{L}(θ,\mathcal{B}) = \frac{1}{|\mathcal{B}|}\sum_{(x,y,z,κ)∈\mathcal{B}}\frac{1}{|z|}\sum_{h=1}^{|z|}\ell_{ce}(f_θ(x,y,z^{:h}),κ)\)$
关键:对roll-out中每个token位置\(h\)都计算损失(超级取样),充分利用自回归采样的等价性。价值函数: $\(V_θ(x) := f_θ(x)[1]及\mathbb{E}_{z∼π_{ref}}[R(x,z)|x]\)$ 直接预测完成路径的期望奖励。
2. 高效数据采集流水线: - 预过滤:OpenR1-Math 94k→50k(去除不可解题与模糊答) - 采样:从4个DeepSeek规模(1.5B-32B)各采14条roll-in(思考截断点) - 完成:每roll-in从π_ref采4条roll-out,总56个样本/问题 - 后过滤:移除全部>roll-out无解问题(~10%)
成本对比: | 方法 | 标注粒度 | 成本 | |:---:|:---:|:---| | PRM800K | 人工每步 | 极高 | | Math-Shepherd | MC每步 |很高 | | Qwen2.5-PRM | LLM-as-Judge每步 | 高 | | VGS(本方) | 仅最终标签 | 低 |
3. 块级束搜索: 生成过程分块(block_size=4096 tokens),块内独立采样并由价值模型评分:
算法1 - 束搜索:
聚合策略: - 最优-n(BoN):选最高价值响应 - 加权多数投票(WMV):按价值权重,分组多数投票
关键发现:WMV超越BoN,因多样生成间稳定性更强。
实验关键数据¶
AIME-25 & HMMT-25竞赛数学¶
| 模型配置 | AIME-25准确度 | HMMT-25准确度 | 平均(%) | 相对MV提升% |
|---|---|---|---|---|
| DeepSeek-1.5B\((N=256\)采样\()\) | ||||
| 多数投票(MV) | 38.9±1.9 | 24.3±2.9 | 31.6±1.7 | 基准 |
| VGS(DeepSeek-VM-1.5B) | 46.7±0.7 | 32.8±0.8 | 39.8±0.5 | +26.0% |
| VGS(Qwen-PRM-7B) | 38.9±1.4 | 24.2±0.2 | 31.6±0.7 | -0.1% |
| DeepSeek-7B\((N=128\)采样\()\) | ||||
| MV基准 | 56.5±1.6 | 33.8±2.5 | 45.2±1.5 | - |
| VGS(DeepSeek-VM-1.5B) | 59.4±0.8 | 41.1±1.6 | 50.3±0.9 | +11.3% |
推理效率对比 - 达目标准确度的FLOP消耗¶
| 目标准确度 | DeepSeek-1.5B MV | DeepSeek-1.5B VGS | FLOP节省% |
|---|---|---|---|
| 35% | 256生成 | 128生成 | 50% |
| 37% | 512生成 | 192生成 | 62.5% |
| 39% | 1024生成 | 256生成 | 75% |
关键发现¶
- 超越PRM:DeepSeekVM-1.5B超所有7B PRM(Qwen/Math-Shepherd),同规模下优;16.2%F1
- 关键缓解:WMV聚合关键,相比BoN固定提升2-4%,体现多样化的重要性
- 效率革命:达同等准确度的推理FLOP削减50-75%,推出实际部署可行性
- 扩展特性:单一固定的束宽与块大小(无per-problem调优)就取得强果,简化部署
亮点与洞察¶
- 方法简洁性:回避PRM对细粒度步骤定义的苦恼,token级分类端到端学习
- 数据高效:无需专家标注与step-wise标记,仅需最终答案即可训练泛化的价值模型
- 实用工程:数据、模型、代码全开源,降低复现与应用门槛
- 性能-效率均衡:既提升准确度(+14%)又优化计算(FLOP↓50-75%),两全其美
局限性¶
- 评估仅限竞赛数学(AIME/HMMT),泛科学推理/代码适用性未知
- 束宽与块大小为超参,虽固定值已优但problem-adaptive策略(per-instance难度估计)未探
- 与MPS(多采样搜索)比较不充分,其他搜索聚合方案(树搜索、图搜索)的potential未开掘
相关工作¶
- 推理模型与测试时计算缩放(o1/DeepSeek-R1/o3)
- 过程奖励模型与推理指导搜索
- Token级与步级价值预测
评分¶
⭐⭐⭐⭐⭐