Rethinking Uncertainty Estimation in LLMs: A Principled Single-Sequence Measure¶

会议: ICLR 2026
arXiv: 2412.15176
代码: 无
领域: 文本生成 / 不确定性估计
关键词: 不确定性估计, 贪心解码, 负对数似然, proper scoring rules, LLM

一句话总结¶

从 proper scoring rules 框架出发，证明最高概率输出序列的负对数似然（MSP）是理论上合理的不确定性度量，并提出 G-NLL——仅用一次贪心解码就能逼近该度量，在多个场景下匹配或超越需要多次采样的 SOTA 方法。

研究背景与动机¶

领域现状：LLM 不确定性估计主要基于对数评分规则（logarithmic score），导出的度量如预测熵（PE）和语义熵（SE）需要采样多个输出序列来近似，计算成本高昂。
现有痛点：多序列采样方法在实际部署中不可行——采样 10 个序列意味着 10 倍推理成本。此外，采样序列之间的差异可能仅是词汇变体而非真正的不确定性，需要额外的自然语言推理模型来聚类语义，进一步增加复杂度。
核心矛盾：对数评分规则必然需要对整个输出序列分布取期望（Shannon 熵），而该分布随序列长度指数增长，根本无法精确计算。有没有一种不需要遍历分布的 proper scoring rule？
本文要解决什么？：(a) 为单序列不确定性度量提供理论依据；(b) 分析其近似的采样复杂度优势；(c) 给出最高效的实现方案。
切入角度：探索 zero-one score 这一替代 proper scoring rule。在该规则下，偶然不确定性仅取决于最高概率序列的似然，不需要对全分布采样。
核心idea一句话：用 zero-one scoring rule 替代 logarithmic scoring rule 导出不确定性度量，发现只需贪心解码序列的负对数似然即可。

方法详解¶

整体框架¶

输入为 LLM 和一个 prompt \(\bm{x}\)，输出为该 prompt 的不确定性估计值。不同于现有方法需要采样 \(N\) 个序列再计算统计量，G-NLL 只需一次贪心解码：对每个 token 取 argmax，累积负对数概率。

关键设计¶

Zero-one Scoring Rule 导出 MSP:
做什么：从 proper scoring rule 框架推导出最高序列概率（MSP）作为偶然不确定性度量
核心思路：\(\mathbf{S}_{0\text{-}1}(p, \bm{y}') = (1 - p(\bm{y}=\bm{y}'|\bm{x})) \cdot \mathbb{1}\{\bm{y}'=\arg\max p(\bm{y}|\bm{x})\}\)。代入分解公式，偶然不确定性为 \(1 - p(\bm{y}=\bm{y}^*|\bm{x},\bm{w})\)，即 MSP，只依赖最高概率序列
设计动机：对数评分需要对所有可能输出取期望（\(|\mathcal{V}|^T\) 量级），零一评分只需找最高概率序列，根本性地降低了计算需求
G-NLL 近似:
做什么：用贪心解码近似最高概率序列
核心思路：\(\text{G-NLL} = -\sum_{t=1}^T \log(\max_{y_t} p(y_t|\bm{x}, \bm{y}_{<t}, \bm{w}))\)，将序列级 max 分解为逐 token max（贪心解码）。虽然贪心序列不一定是全局最优序列，但实验和理论模拟都表明其近似质量足够好
设计动机：精确求最高概率序列仍需搜索指数空间，贪心解码是标准推理流程的一部分，零额外开销
采样复杂度理论分析（Theorem 1）:
做什么：证明近似 \(M(p(\bm{y}))\) 的采样复杂度远优于近似 \(H(p(\bm{y}))\)
核心思路：近似 \(M\) 的采样复杂度为 \(O(\frac{C_\epsilon}{P_\epsilon}\log\frac{1}{\delta})\)，依赖 \(\epsilon\)-区域的概率集中度。近似 \(H\) 的复杂度为 \(O(\frac{(b-a)^2 C^2}{2\epsilon^2}\log\frac{2}{\delta})\)，依赖似然范围和最坏情况重要性权重
设计动机：LLM 输出分布的集中性使得 \(M\) 很容易近似，而 \(H\) 的近似困难得多

损失函数 / 训练策略¶

G-NLL 不需要任何训练，是纯推理时方法。关键发现：不应对 G-NLL 做长度归一化——归一化会破坏其与 MSP 的理论对应关系。

实验关键数据¶

主实验（6个模型 × 6个任务，AUROC 区分正确/错误答案）¶

6 种语言模型涵盖不同架构（transformer, state-space）、大小（7B, 8B, 70B）、训练阶段（PT, IT）：

方法	采样序列数	平均AUROC	说明
PE	10	基线	预测熵
LN-PE	10	略高	长度归一化PE
SE	10	中等	语义熵
D-SE	10	中等	改进语义熵
G-NLL	1	SOTA	10倍效率提升

消融实验¶

配置	效果	说明
G-NLL（不归一化）	最优	理论正确的形式
G-NLL + 长度归一化	下降	破坏与 MSP 的对应
采样序列 NLL（非贪心）	下降	只有最高概率序列才有理论保证
PE (N=5)	下降	采样太少，方差大

关键发现¶

G-NLL 用 1 次解码达到（甚至超越）PE/SE 用 10 次采样的效果——10 倍计算效率提升
不应对 G-NLL 做长度归一化，这在理论上没有依据且实验表明有害
必须用贪心解码（最高概率序列），采样序列的 NLL 效果更差
模拟实验表明，贪心解码对 MSP 的近似误差远小于多序列采样对 PE 的近似误差
G-NLL 在不同模型架构和大小上表现稳定

亮点与洞察¶

理论贡献是核心亮点：首次为单序列不确定性度量（MSP）提供 proper scoring rule 的理论基础，将此前的 ad hoc 基线提升为有理论保证的方法。这挑战了"多序列采样才可靠"的流行观点。
实用价值极高：G-NLL 就是贪心解码的负对数似然，零额外计算成本，可以直接作为 LLM 部署中的不确定性信号。
采样复杂度分析为不同不确定性度量的计算可行性提供了理论基准。

局限性 / 可改进方向¶

贪心解码不一定找到真正的最高概率序列（NP-hard），只是上界近似
仅关注偶然不确定性（aleatoric），未处理认知不确定性（epistemic）
实验范围限于问答任务，未验证长文本生成场景
Zero-one score 在语义层面的对应（MCP）尚未充分探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从理论基础挑战主流范式，elegant 且实用
实验充分度: ⭐⭐⭐⭐ 6个模型×6个任务，有模拟分析和理论证明
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨清晰，研究动机令人信服
价值: ⭐⭐⭐⭐⭐ 对 LLM 不确定性估计领域有范式性影响