Improving the Calibration of Confidence Scores in Text Generation Using the Output Distribution's Characteristics¶

会议: ACL 2025 (Short)
arXiv: 2506.00637
代码: https://github.com/ljyflores/calibrated-confidence-for-nlg
领域: 文本生成
关键词: 置信度校准, 文本生成, 概率分布, 尾部稀薄度, 生成不确定性

一句话总结¶

针对文本生成中多个有效输出导致传统置信度指标失效的问题，提出两种任务无关的置信度度量——"比率"（头部vs中部概率比）和"尾部稀薄度"（分布尾部薄厚），仅依赖模型输出概率即可改善 BART/Flan-T5 在摘要、翻译、问答任务上的置信度校准。

领域现状：模型置信度评估通常关注最高概率序列——高概率=高置信。这在分类任务中有效（只有一个正确答案），已有大量校准方法。
现有痛点：文本生成任务有多个有效输出（如翻译的多种表达、摘要的多种组织方式）。一个有能力的模型可能将概率分散到多个好的序列上，导致最高概率序列的绝对概率不高——被传统方法误判为低置信。
核心矛盾：在生成任务中，低 top-1 概率可能意味着"不确定"（模型真的不知道），也可能意味着"多个好答案"（模型知道得太多）——传统指标无法区分这两种情况。
本文要解决什么？ 设计能同时适用于单答案和多答案场景的生成置信度度量。
切入角度：关注输出分布的形状特征——自信模型的共性是"好序列远好于差序列"（陡峭斜率）和"差序列概率极低"（薄尾巴），无论好序列有几个。这些特征对输出多样性不敏感。
核心idea一句话：用概率比和尾部稀薄度替代 top-1 概率来度量生成置信度，对"多正确答案"场景鲁棒。

推理时用 beam search 生成 \(N=100\) 个候选序列，计算各序列概率，然后用两种新指标评估置信度。不需要任何额外训练或模型。

比率方法（Ratio）:
做什么：衡量最好序列与中等序列之间的概率差距
核心思路：\(\text{Ratio}(x) = \frac{p_{\hat{y}^{(1)}}(x)}{p_{\hat{y}^{(k)}}(x)}\)，即 top-1 概率除以第 \(k\) 名概率。\(k\) 在验证集上调优
设计动机：自信模型会给最好的序列显著更高概率，不自信模型所有序列概率接近。通过比较头部和中部的差距来度量——有多个好答案时头部多个序列概率都高、但与中部差距仍然大
尾部稀薄度（Tail Thinness）:
做什么：量化概率分布尾部的"厚度"
核心思路：\(\text{Tail Thinness}(x) = \sum_{i=1}^N p_{\hat{y}^{(i)}}(x)^2\)（softmax 归一化后的概率平方和）。数学上等价于 Herfindahl 指数
设计动机：自信模型的尾部（低质量序列）概率极低→平方和由头部主导→值大；不自信时均匀分布→平方和小。该指标对"有几个好答案"不敏感——只要差的答案概率低就行

任务	模型	Top-1概率	Ratio	Tail Thinness	说明
摘要(ROUGE-L)	BART	0.12	0.25	0.22	摘要开放度最高，改进最大
翻译(BLEU)	Flan-T5	0.31	0.38	0.36	翻译有多种有效表达
问答(F1)	Flan-T5	0.43	0.48	0.46	QA 答案较收敛，改进最小但仍显著