跳转至

Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding

会议: NeurIPS 2025
arXiv: 2503.01422
代码: https://github.com/Alsace08/ST-BoN
领域: LLM推理 / 测试时计算
关键词: Best-of-N, test-time scaling, early truncation, latent consistency, token efficiency

一句话总结

提出 Self-Truncation Best-of-N (ST-BoN) 解码方法,通过理论证明早期隐状态一致性可预测最终一致性,在生成早期就识别并截断次优样本,实现降低80%+内存和50%延迟的同时保持BoN性能。

研究背景与动机

  1. 领域现状:Best-of-N (BoN) 采样是常用的test-time scaling方法——生成N个候选回答,用奖励模型或自一致性选最优。BoN能有效利用模型分布中的优质解。
  2. 现有痛点:(a) 全量生成N个完整样本占用大量GPU内存(KV cache线性增长),限制了可用N的大小;(b) 奖励模型额外占用显存和推理时间,且训练强RM成本高、泛化性差。现有改进方法(如FastRM、TreeBoN)仅解决单一挑战。
  3. 核心矛盾:BoN的效率瓶颈来自"必须生成完整的N个样本+使用外部RM评分"这两个假设——能否更早判断哪个样本最有希望?
  4. 本文要解决什么? 在生成早期自主判断最有前途的样本,截断其余样本,无需外部RM。
  5. 切入角度:自一致性的核心洞察是"多条推理路径趋向同一答案则该答案更可靠"——如果早期隐状态的一致性已经能预测最终一致性,就可以在早期做截断。
  6. 核心idea一句话:用LLM自身隐状态的Chain-of-Embedding特征度量采样间一致性,在首次分叉时刻就预测最终最优样本并截断其余。

方法详解

整体框架

ST-BoN的三步流程:(1) 并行生成N个样本直到最早分叉时刻 \(c\)(所有样本序列两两不同);(2) 继续生成 \(\tau\) 步,在每步用隐状态一致性自评估各样本质量,投票选出最有前途的样本;(3) 截断其余 \(N-1\) 个样本,仅完成最优样本的生成。

关键设计

  1. 理论基础:早期一致性预测最终一致性 (Theorem 1):
  2. 做什么:证明早期采样距离小的样本在生成结束时也更可能保持接近
  3. 核心思路:设 \(S_t = \sum_i d_t^i\) 为时刻 \(t\) 的总距离。在local Lipschitz连续和bounded increment假设下,\(\mathbb{E}[S_{t+1}] \leq \Gamma \cdot S_t\),其中 \(\Gamma = 1+LM\)。Markov不等式给出 \(\Pr[S_T \leq \epsilon | S_t] \geq 1 - \frac{\Gamma^{T-t}}{\epsilon} S_t\)
  4. 设计动机:为在早期截断提供理论保证——不只是启发式,而是概率可控的

  5. Chain-of-Embedding (CoE) 隐状态一致性度量:

  6. 做什么:用LLM内部隐状态表示的"潜在思维路径"的曲率来度量样本间差异
  7. 核心思路:对每个样本,提取各层隐状态的句子嵌入 \(\mathbf{h}_l^T\),计算跨层的normalized Manhattan距离和角距离之差 \(\mathcal{F}(\mathbf{H})\)。样本间距离 \(\mathcal{D}(Y^i, Y^j) = (\mathcal{F}(\mathbf{H}^i) - \mathcal{F}(\mathbf{H}^j))^2\)。选 \(\mathcal{D}\) 最小的样本(最一致的)
  8. 设计动机:在生成早期,文本差异极微小,基于输出token难以区分;隐状态包含更丰富的语义信息,能捕捉到未体现在token level的推理路径差异

  9. Buffer Window 稳健估计:

  10. 做什么:在buffer window \([c, c+\tau]\) 内多次投票,降低单时刻估计的随机性
  11. 核心思路:\(\tau = m \cdot c\)(默认 \(m=1\)),每步独立选最优样本,最终取多数投票结果
  12. 设计动机:分叉点 \(c\) 处差异刚出现,可能不够显著;缓冲窗口给时间让差异积累

损失函数/训练策略

ST-BoN是training-free的推理方法,无需训练,直接在解码时使用。

实验关键数据

主实验

四个客观任务(MATH, TheoremQA, GPQA, MMLU)+ 两个主观任务(CNNDM, AlpacaFarm),三个模型:

方法 内存减少 延迟减少 性能
Full-BoN w/o RM (self-consistency) 基线 基线 基线
Full-BoN w/ RM (PRM) 更高(加载RM) 更高 通常最优
ST-BoN >80% ~50% ≈ Full-BoN w/o RM

达到Full-BoN相同性能时的计算节省: | 模型 | 任务 | Full-BoN所需N | ST-BoN等效N | 计算节省 | |------|------|-------------|------------|---------| | Llama3-8B | MATH | N=16 | N=64 ST-BoN ≈ N=16 Full | 70-80% | | Qwen2.5-7B | MATH | N=16 | 类似 | 70-80% |

相同计算成本下的性能提升: | 模型 | 任务 | Full-BoN Acc | ST-BoN Acc | 提升 | |------|------|------------|-----------|------| | Llama3-8B | MATH | 50.2% (N=8) | 53.4% | +3.2 | | Qwen2.5-7B | TheoremQA | 46.8% (N=8) | 50.1% | +3.3 |

消融实验

配置 效果 说明
\(\tau=0\) (无buffer) 性能下降2-3% 需要缓冲窗口稳定估计
\(m=0.5\) vs \(m=1\) vs \(m=2\) \(m=1\)最优 太短不稳定,太长浪费成本
CoE vs output token距离 CoE显著更优 隐状态比输出token更具判别性
72B模型 依然有效 跨模型规模泛化

关键发现

  • 分叉时刻 \(c\) 通常在生成长度 \(T\) 的5-10%处——截断窗口在非常早期就关闭
  • GPU内存节省随N增大而增加,N≥5时节省超80%
  • ST-BoN在主观任务(摘要、指令跟随)上也有效,说明CoE一致性的通用性
  • 与PRM相比,ST-BoN在不需要任何外部模型的情况下达到接近的性能

亮点与洞察

  • 理论+实践的优雅闭环:先证明早期一致性→最终一致性的概率保证,再用CoE设计实用度量,最后用buffer window弥补估计方差。每一步都有清晰的motivation
  • 彻底消除RM依赖:在不使用任何外部奖励模型的前提下,用模型自身隐状态做"自验证",真正做到了plug-and-play
  • 实际部署价值:80%+内存节省+50%延迟减少对LLM推理服务意义重大——同样的GPU可以处理更多请求或使用更大的N

局限性 / 可改进方向

  • CoE特征的计算需要提取所有层的隐状态,在某些推理框架(vLLM等)中可能不方便
  • 对于推理型任务效果好,但对于创意生成等多样性重要的任务,截断可能损失有价值的多样性
  • 理论中的Lipschitz常数和bounded increment假设在实际LLM中的适用性需要进一步验证
  • 仅与self-consistency和PRM比较,未与其他效率方法(如speculative decoding)对比

相关工作与启发

  • vs Full-BoN: ST-BoN是Full-BoN的高效近似——用早期一致性替代完整生成+全局评分
  • vs VG-Search: VG-Search优化验证粒度(调用验证器频率),ST-BoN优化样本数量(早期截断不需要的样本);两者视角正交
  • vs Self-Consistency: 继承了自一致性的核心思想,但在隐空间而非输出空间度量一致性,并将一致性检测前移到生成早期

评分

  • 新颖性: ⭐⭐⭐⭐ 早期隐状态一致性预测最终表现的想法新颖,有理论支撑
  • 实验充分度: ⭐⭐⭐⭐⭐ 六个数据集、四个模型(含72B)、多维度消融,非常充分
  • 写作质量: ⭐⭐⭐⭐ 理论-方法-实验的逻辑链清晰,但部分主方法的呈现可以更紧凑
  • 价值: ⭐⭐⭐⭐⭐ 高度实用——不需要训练任何模型,即插即用,节省大量推理资源