跳转至

Rethinking Uncertainty Estimation in LLMs: A Principled Single-Sequence Measure

会议: ICLR 2026
arXiv: 2412.15176
代码: 无
领域: 文本生成 / 不确定性估计
关键词: 不确定性估计, 贪心解码, 负对数似然, proper scoring rules, LLM

一句话总结

从 proper scoring rules 框架出发,证明最高概率输出序列的负对数似然(MSP)是理论上合理的不确定性度量,并提出 G-NLL——仅用一次贪心解码就能逼近该度量,在多个场景下匹配或超越需要多次采样的 SOTA 方法。

研究背景与动机

  1. 领域现状:LLM 不确定性估计主要基于对数评分规则(logarithmic score),导出的度量如预测熵(PE)和语义熵(SE)需要采样多个输出序列来近似,计算成本高昂。

  2. 现有痛点:多序列采样方法在实际部署中不可行——采样 10 个序列意味着 10 倍推理成本。此外,采样序列之间的差异可能仅是词汇变体而非真正的不确定性,需要额外的自然语言推理模型来聚类语义,进一步增加复杂度。

  3. 核心矛盾:对数评分规则必然需要对整个输出序列分布取期望(Shannon 熵),而该分布随序列长度指数增长,根本无法精确计算。有没有一种不需要遍历分布的 proper scoring rule?

  4. 本文要解决什么?:(a) 为单序列不确定性度量提供理论依据;(b) 分析其近似的采样复杂度优势;(c) 给出最高效的实现方案。

  5. 切入角度:探索 zero-one score 这一替代 proper scoring rule。在该规则下,偶然不确定性仅取决于最高概率序列的似然,不需要对全分布采样。

  6. 核心idea一句话:用 zero-one scoring rule 替代 logarithmic scoring rule 导出不确定性度量,发现只需贪心解码序列的负对数似然即可。

方法详解

整体框架

输入为 LLM 和一个 prompt \(\bm{x}\),输出为该 prompt 的不确定性估计值。不同于现有方法需要采样 \(N\) 个序列再计算统计量,G-NLL 只需一次贪心解码:对每个 token 取 argmax,累积负对数概率。

关键设计

  1. Zero-one Scoring Rule 导出 MSP:
  2. 做什么:从 proper scoring rule 框架推导出最高序列概率(MSP)作为偶然不确定性度量
  3. 核心思路:\(\mathbf{S}_{0\text{-}1}(p, \bm{y}') = (1 - p(\bm{y}=\bm{y}'|\bm{x})) \cdot \mathbb{1}\{\bm{y}'=\arg\max p(\bm{y}|\bm{x})\}\)。代入分解公式,偶然不确定性为 \(1 - p(\bm{y}=\bm{y}^*|\bm{x},\bm{w})\),即 MSP,只依赖最高概率序列
  4. 设计动机:对数评分需要对所有可能输出取期望(\(|\mathcal{V}|^T\) 量级),零一评分只需找最高概率序列,根本性地降低了计算需求

  5. G-NLL 近似:

  6. 做什么:用贪心解码近似最高概率序列
  7. 核心思路:\(\text{G-NLL} = -\sum_{t=1}^T \log(\max_{y_t} p(y_t|\bm{x}, \bm{y}_{<t}, \bm{w}))\),将序列级 max 分解为逐 token max(贪心解码)。虽然贪心序列不一定是全局最优序列,但实验和理论模拟都表明其近似质量足够好
  8. 设计动机:精确求最高概率序列仍需搜索指数空间,贪心解码是标准推理流程的一部分,零额外开销

  9. 采样复杂度理论分析(Theorem 1):

  10. 做什么:证明近似 \(M(p(\bm{y}))\) 的采样复杂度远优于近似 \(H(p(\bm{y}))\)
  11. 核心思路:近似 \(M\) 的采样复杂度为 \(O(\frac{C_\epsilon}{P_\epsilon}\log\frac{1}{\delta})\),依赖 \(\epsilon\)-区域的概率集中度。近似 \(H\) 的复杂度为 \(O(\frac{(b-a)^2 C^2}{2\epsilon^2}\log\frac{2}{\delta})\),依赖似然范围和最坏情况重要性权重
  12. 设计动机:LLM 输出分布的集中性使得 \(M\) 很容易近似,而 \(H\) 的近似困难得多

损失函数 / 训练策略

G-NLL 不需要任何训练,是纯推理时方法。关键发现:不应对 G-NLL 做长度归一化——归一化会破坏其与 MSP 的理论对应关系。

实验关键数据

主实验(6个模型 × 6个任务,AUROC 区分正确/错误答案)

6 种语言模型涵盖不同架构(transformer, state-space)、大小(7B, 8B, 70B)、训练阶段(PT, IT):

方法 采样序列数 平均AUROC 说明
PE 10 基线 预测熵
LN-PE 10 略高 长度归一化PE
SE 10 中等 语义熵
D-SE 10 中等 改进语义熵
G-NLL 1 SOTA 10倍效率提升

消融实验

配置 效果 说明
G-NLL(不归一化) 最优 理论正确的形式
G-NLL + 长度归一化 下降 破坏与 MSP 的对应
采样序列 NLL(非贪心) 下降 只有最高概率序列才有理论保证
PE (N=5) 下降 采样太少,方差大

关键发现

  • G-NLL 用 1 次解码达到(甚至超越)PE/SE 用 10 次采样的效果——10 倍计算效率提升
  • 不应对 G-NLL 做长度归一化,这在理论上没有依据且实验表明有害
  • 必须用贪心解码(最高概率序列),采样序列的 NLL 效果更差
  • 模拟实验表明,贪心解码对 MSP 的近似误差远小于多序列采样对 PE 的近似误差
  • G-NLL 在不同模型架构和大小上表现稳定

亮点与洞察

  • 理论贡献是核心亮点:首次为单序列不确定性度量(MSP)提供 proper scoring rule 的理论基础,将此前的 ad hoc 基线提升为有理论保证的方法。这挑战了"多序列采样才可靠"的流行观点。
  • 实用价值极高:G-NLL 就是贪心解码的负对数似然,零额外计算成本,可以直接作为 LLM 部署中的不确定性信号。
  • 采样复杂度分析为不同不确定性度量的计算可行性提供了理论基准。

局限性 / 可改进方向

  • 贪心解码不一定找到真正的最高概率序列(NP-hard),只是上界近似
  • 仅关注偶然不确定性(aleatoric),未处理认知不确定性(epistemic)
  • 实验范围限于问答任务,未验证长文本生成场景
  • Zero-one score 在语义层面的对应(MCP)尚未充分探索

相关工作与启发

  • vs PE (Malinin & Gales): PE 基于对数评分的 Shannon 熵,需要多次采样且方差大。G-NLL 基于零一评分,只需一次解码。
  • vs SE (Kuhn et al.): SE 进一步引入语义聚类减少虚假不确定性,但需要额外 NLI 模型。G-NLL 无需任何额外模型。
  • vs Fadeeva et al.: 他们作为基线提出 MSP 但未给出理论依据,本文补充了理论基础。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从理论基础挑战主流范式,elegant 且实用
  • 实验充分度: ⭐⭐⭐⭐ 6个模型×6个任务,有模拟分析和理论证明
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨清晰,研究动机令人信服
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 不确定性估计领域有范式性影响