跳转至

Scalable Best-of-N Selection for Large Language Models via Self-Certainty

会议: NeurIPS 2025
arXiv: 2502.18581
代码: GitHub
领域: LLM推理与选择策略
关键词: Best-of-N, 自信度, 分布量化, 无奖励模型, 推理加速

一句话总结

提出Self-Certainty度量,利用LLM输出的token概率分布量化模型信心,在无需额外奖励模型的情况下实现可扩展的Best-of-N选择,性能媲美或超越基于奖励模型的方法。

研究背景与动机

  1. 成本问题: 现有Best-of-N方法依赖奖励模型(ORM/PRM),训练和推理成本高
  2. 分布漂移: 奖励模型易受分布飘移影响,容易出现reward hacking
  3. 局限性: Self-consistency只适用于确定答案任务,通用性差
  4. 机会: LLM的token概率分布天然编码了模型信心,可直接利用

方法详解

整体框架

Self-Certainty基于分布信心量化,核心思路是: - 更集中的token概率分布→更高的模型信心 - 通过分布与均匀分布的距离反映节点级信心

关键设计

1. 自信度度量 (Self-Certainty): 基于KL散度(或等价的交叉熵):

Self-Certainty = -1/(nV) * ∑∑ log(V·p(j|x,y≤i))

其中n为响应长度,V为词表大小,p为token概率。

2. 对比度量: - AvgLogP: 直接平均log概率 - Perplexity: 指数化的负对数概率 - Entropy: 信息论熵 - Gini Impurity: 决策树度量 - DP: 分布困惑度

3. Borda投票融合: - 排序N个样本的confidence - 分配加权投票:v(r) = (N-r+1)^p - 答案聚合:累积最多票的答案

实验关键数据

置信度度量对比 (LiveBench-Math)

度量方法 N=8 N=16 N=32 N=64 性能趋势
AvgLogP 17.66% 17.5% 18.2% 18.3% 平坦
Perplexity 20.44% 18.3% 16.5% 15.8% 下降
Entropy - - - - 互补
KL-Divergence 22.1% 25.2% 28.1% 29.8% 上升✓
Self-Certainty 20.87% 22.01% 27.5% 28.5% 强上升✓

方法对比 (表1完整结果)

方法 LiveBench-Math GSM8K MATH CRUXEval-O 平均
Greedy 12.23% 47.96% 46.02% 39.88% 36.5%
自一致性 22.50% 89.42% 58.60% 47.58% 56.15%
Self-Certainty 20.87% 87.32% 54.63% 45.38% 52.71%
Borda投票(p=1.2) 23.21% 89.51% 59.04% 47.93% 56.51%

Borda参数优化 (p的影响)

p值 N=8 N=16 N=32 N=64 最优特性
0.0 23.02% 22.5% 22.5% 26.25% 多数投票
0.3 23.69% 26.5% 26.5% 26.47% 推荐小N
0.7-1.2 23.21% 26.69% 26.69% 26.41% 最优范围
2.0+ 22.45% 26.41% 24.1% 18.2% 衰退

开放式任务性能 (LiveCodeBench)

模型 Greedy USC Self-Certainty Borda投票
Llama-8B 42.93% 43.78% 45.83% 50.85%
Qwen-32B 78.6% 76.8% 79.5% 81.2%

亮点与洞察

  1. 内在信号理论: LLM的token分布天然编码了信心,无需外部标注
  2. 无分布偏差: Self-Certainty不依赖学习模型,完全基于原生概率
  3. 长度不偏: 与负困惑度相比,Self-Certainty不因长序列而虚高
  4. 开放式任务: 突破自一致性的"确定答案"限制,适用于代码等开放输出

局限性

  1. 虚假高信: 某些生成可能因表面自信而score高,但实际错误
  2. 性能差异: 在有明确答案的MATH任务上,自一致性仍略优0.5%
  3. 超参敏感: Borda的p参数需根据N和任务调整
  4. 理论缺乏: 为何KL散度优于其他度量的深层理论未完全解释

相关工作

  • Best-of-N: Self-consistency、USC、ORMs/PRMs
  • 信心估计: BSDetector、TrustScore、自评估方法
  • 推理扩展: 测试时计算扩展、多路径推理

评分

⭐⭐⭐⭐⭐