Towards Harmonized Uncertainty Estimation for Large Language Models¶

会议: ACL2025 arXiv: 2505.19073 代码: O-L1RU1/Corrector4UE 领域: llm_nlp 关键词: 不确定性估计, LLM可信部署, 校准, 轻量级校正器

一句话总结¶

提出 CUE 框架，通过训练一个与目标 LLM 性能对齐的轻量级分类器（Corrector）来校正现有不确定性估计方法的分数，在指示性、精确-召回平衡和校准三个维度上实现协调一致的改进，最高提升达 60%。

LLM 幻觉风险：大语言模型在回答问题时常常"自信地犯错"，生成幻觉和事实性错误，用户难以判断输出是否可靠，因此需要不确定性估计来量化输出可信度。
现有方法三项指标难以兼顾：作者从分类视角（AUROC 衡量指示性、F1 衡量精确-召回平衡）和校准视角（ECE）系统评估了现有方法，发现它们在三个维度上表现极不均衡——擅长一项则另两项拉胯。
基础方法指示性差：Lexical Similarity、Verbal Confidence、P(True)、Predictive Entropy 等基础方法的 AUROC 接近随机猜测（0.5），难以有效区分可靠与不可靠回答。
增强 logit 方法 F1 极低：SAR、SE 等改进方法虽然提升了 AUROC，但 F1 分数极低，无法在精确率和召回率之间取得平衡，导致实际使用中误报或漏报严重。
校准被普遍忽视：绝大多数现有方法的 ECE 表现较差，不确定性分数与真实概率之间存在严重偏差，不符合人类对概率的直觉理解。
方法间互补性差：作者尝试将不同方法的不确定性分数加权组合，发现几乎没有提升甚至会下降，说明现有方法具有同质性，缺乏互补信息来源。

CUE（Corrector for Uncertainty Estimation）框架包含三个步骤：

从已有数据集中抽取 QA 对 \(\mathcal{D}=\{(q_i,a_i)\}\)，让目标模型 \(M\) 生成回答 \(r_i\)
使用混合评判策略判断回答正确性：规则方法（ROUGE-L > 0.7 则判正确）和 LLM 方法（GPT-3.5 直接判断语义等价），二者取 OR 逻辑
为每个样本分配二值标签 \(c_i\)，并将其反转为不确定性方向：\(\mathcal{D}^*_{\text{cor}}=\{(q_i, 1-c_i)\}\)

将原始不确定性分数 Min-Max 归一化到 \([0,1]\)：\(U_{\text{norm}}(x)=\frac{U(x)-\min(U)}{\max(U)-\min(U)}\)
与校正器输出的校正分数 \(C(x)\) 加权融合：\(U_{\text{cor}}(x)=w^*\cdot U_{\text{norm}}(x)+(1-w^*)\cdot C(x)\)
最优权重 \(w^*\) 通过网格搜索在开发集上确定

核心洞察：校正器提供了一种与现有 UE 方法正交的全局对齐信息——它从问题文本直接预测目标模型的出错概率，而非依赖 LLM 的内部逻辑或语言特征。

实验设置：目标模型为 OPT-6.7B 和 LLaMA-3-8B-Instruct；数据集为 TriviaQA（95K QA 对）和 SciQA（2565 QA 对）；基线覆盖 logit、verbalized、consistency、internal state 四大类共 9 种方法。

方法	TriviaQA AUROC（原→+Corrector）	TriviaQA ECE（原→+Corrector）	SciQA AUROC（原→+Corrector）
LS	19.57→69.82 (+50.25)	70.25→7.41 (-62.84)	53.67→65.38 (+11.71)
VC	62.34→74.89 (+12.55)	23.41→16.78 (-6.63)	68.22→72.15 (+3.93)
SE	80.92→82.12 (+1.20)	13.07→12.76 (-0.31)	71.59→72.93 (+1.34)
SAR	80.92→81.90 (+0.98)	16.17→13.76 (-2.41)	73.88→75.19 (+1.31)

关键发现： - AUROC 平均提升 0.27（TriviaQA）和 0.09（SciQA） - F1 分数平均提升 38.97% - 对弱基线（如 LS）提升最大（+50.25 AUROC），对强基线（如 SE）也有稳定提升 - 概率值校正远优于离散标签值和 GPT-4o 评分

SE 通过语义聚类计算熵来估计不确定性，在 AUROC 上表现较好但 F1 和 ECE 较差。CUE 作为后处理校正框架，可以在 SE 基础上进一步提升所有三项指标，且两者互补——SE 利用模型内部语义信息，CUE 利用外部对齐信息。

SAR 通过关注相关 token 的贡献来改进预测熵，是现有 SOTA 方法之一。但 SAR 同样存在 F1 极低和校准差的问题。CUE 在 SAR 基础上仍能带来 0.98-3.35 的 AUROC 提升和显著的 ECE 降低，证明两种方法提供的信息确实正交。

LARS 同样使用监督信号来学习 token 概率依赖关系，但它改进的是评分函数本身。CUE 则完全从问题端出发预测目标模型的可靠性，不依赖于 LLM 的输出 logits，适用范围更广。