Scalable Best-of-N Selection for Large Language Models via Self-Certainty¶
会议: NeurIPS 2025
arXiv: 2502.18581
代码: GitHub
领域: LLM推理与选择策略
关键词: Best-of-N, 自信度, 分布量化, 无奖励模型, 推理加速
一句话总结¶
提出Self-Certainty度量,利用LLM输出的token概率分布量化模型信心,在无需额外奖励模型的情况下实现可扩展的Best-of-N选择,性能媲美或超越基于奖励模型的方法。
研究背景与动机¶
- 成本问题: 现有Best-of-N方法依赖奖励模型(ORM/PRM),训练和推理成本高
- 分布漂移: 奖励模型易受分布飘移影响,容易出现reward hacking
- 局限性: Self-consistency只适用于确定答案任务,通用性差
- 机会: LLM的token概率分布天然编码了模型信心,可直接利用
方法详解¶
整体框架¶
Self-Certainty基于分布信心量化,核心思路是: - 更集中的token概率分布→更高的模型信心 - 通过分布与均匀分布的距离反映节点级信心
关键设计¶
1. 自信度度量 (Self-Certainty): 基于KL散度(或等价的交叉熵):
Self-Certainty = -1/(nV) * ∑∑ log(V·p(j|x,y≤i))
其中n为响应长度,V为词表大小,p为token概率。
2. 对比度量: - AvgLogP: 直接平均log概率 - Perplexity: 指数化的负对数概率 - Entropy: 信息论熵 - Gini Impurity: 决策树度量 - DP: 分布困惑度
3. Borda投票融合: - 排序N个样本的confidence - 分配加权投票:v(r) = (N-r+1)^p - 答案聚合:累积最多票的答案
实验关键数据¶
置信度度量对比 (LiveBench-Math)¶
| 度量方法 | N=8 | N=16 | N=32 | N=64 | 性能趋势 |
|---|---|---|---|---|---|
| AvgLogP | 17.66% | 17.5% | 18.2% | 18.3% | 平坦 |
| Perplexity | 20.44% | 18.3% | 16.5% | 15.8% | 下降 |
| Entropy | - | - | - | - | 互补 |
| KL-Divergence | 22.1% | 25.2% | 28.1% | 29.8% | 上升✓ |
| Self-Certainty | 20.87% | 22.01% | 27.5% | 28.5% | 强上升✓ |
方法对比 (表1完整结果)¶
| 方法 | LiveBench-Math | GSM8K | MATH | CRUXEval-O | 平均 |
|---|---|---|---|---|---|
| Greedy | 12.23% | 47.96% | 46.02% | 39.88% | 36.5% |
| 自一致性 | 22.50% | 89.42% | 58.60% | 47.58% | 56.15% |
| Self-Certainty | 20.87% | 87.32% | 54.63% | 45.38% | 52.71% |
| Borda投票(p=1.2) | 23.21% | 89.51% | 59.04% | 47.93% | 56.51% |
Borda参数优化 (p的影响)¶
| p值 | N=8 | N=16 | N=32 | N=64 | 最优特性 |
|---|---|---|---|---|---|
| 0.0 | 23.02% | 22.5% | 22.5% | 26.25% | 多数投票 |
| 0.3 | 23.69% | 26.5% | 26.5% | 26.47% | 推荐小N |
| 0.7-1.2 | 23.21% | 26.69% | 26.69% | 26.41% | 最优范围 |
| 2.0+ | 22.45% | 26.41% | 24.1% | 18.2% | 衰退 |
开放式任务性能 (LiveCodeBench)¶
| 模型 | Greedy | USC | Self-Certainty | Borda投票 |
|---|---|---|---|---|
| Llama-8B | 42.93% | 43.78% | 45.83% | 50.85% |
| Qwen-32B | 78.6% | 76.8% | 79.5% | 81.2% |
亮点与洞察¶
- 内在信号理论: LLM的token分布天然编码了信心,无需外部标注
- 无分布偏差: Self-Certainty不依赖学习模型,完全基于原生概率
- 长度不偏: 与负困惑度相比,Self-Certainty不因长序列而虚高
- 开放式任务: 突破自一致性的"确定答案"限制,适用于代码等开放输出
局限性¶
- 虚假高信: 某些生成可能因表面自信而score高,但实际错误
- 性能差异: 在有明确答案的MATH任务上,自一致性仍略优0.5%
- 超参敏感: Borda的p参数需根据N和任务调整
- 理论缺乏: 为何KL散度优于其他度量的深层理论未完全解释
相关工作¶
- Best-of-N: Self-consistency、USC、ORMs/PRMs
- 信心估计: BSDetector、TrustScore、自评估方法
- 推理扩展: 测试时计算扩展、多路径推理
评分¶
⭐⭐⭐⭐⭐