Scalable Best-of-N Selection for Large Language Models via Self-Certainty¶

会议: NeurIPS 2025
arXiv: 2502.18581
代码: GitHub
领域: LLM推理与选择策略
关键词: Best-of-N, 自信度, 分布量化, 无奖励模型, 推理加速

一句话总结¶

提出Self-Certainty度量，利用LLM输出的token概率分布量化模型信心，在无需额外奖励模型的情况下实现可扩展的Best-of-N选择，性能媲美或超越基于奖励模型的方法。

Self-Certainty基于分布信心量化，核心思路是： - 更集中的token概率分布→更高的模型信心 - 通过分布与均匀分布的距离反映节点级信心

1. 自信度度量 (Self-Certainty): 基于KL散度（或等价的交叉熵）：

Self-Certainty = -1/(nV) * ∑∑ log(V·p(j|x,y≤i))

其中n为响应长度，V为词表大小，p为token概率。

2. 对比度量: - AvgLogP: 直接平均log概率 - Perplexity: 指数化的负对数概率 - Entropy: 信息论熵 - Gini Impurity: 决策树度量 - DP: 分布困惑度

3. Borda投票融合: - 排序N个样本的confidence - 分配加权投票：v(r) = (N-r+1)^p - 答案聚合：累积最多票的答案

方法	LiveBench-Math	GSM8K	MATH	CRUXEval-O	平均
Greedy	12.23%	47.96%	46.02%	39.88%	36.5%
自一致性	22.50%	89.42%	58.60%	47.58%	56.15%
Self-Certainty	20.87%	87.32%	54.63%	45.38%	52.71%
Borda投票(p=1.2)	23.21%	89.51%	59.04%	47.93%	56.51%

模型	Greedy	USC	Self-Certainty	Borda投票
Llama-8B	42.93%	43.78%	45.83%	50.85%
Qwen-32B	78.6%	76.8%	79.5%	81.2%

⭐⭐⭐⭐⭐