Improving the Calibration of Confidence Scores in Text Generation Using the Output Distribution's Characteristics¶
会议: ACL 2025 (Short)
arXiv: 2506.00637
代码: https://github.com/ljyflores/calibrated-confidence-for-nlg
领域: 文本生成
关键词: 置信度校准, 文本生成, 概率分布, 尾部稀薄度, 生成不确定性
一句话总结¶
针对文本生成中多个有效输出导致传统置信度指标失效的问题,提出两种任务无关的置信度度量——"比率"(头部vs中部概率比)和"尾部稀薄度"(分布尾部薄厚),仅依赖模型输出概率即可改善 BART/Flan-T5 在摘要、翻译、问答任务上的置信度校准。
研究背景与动机¶
- 领域现状:模型置信度评估通常关注最高概率序列——高概率=高置信。这在分类任务中有效(只有一个正确答案),已有大量校准方法。
- 现有痛点:文本生成任务有多个有效输出(如翻译的多种表达、摘要的多种组织方式)。一个有能力的模型可能将概率分散到多个好的序列上,导致最高概率序列的绝对概率不高——被传统方法误判为低置信。
- 核心矛盾:在生成任务中,低 top-1 概率可能意味着"不确定"(模型真的不知道),也可能意味着"多个好答案"(模型知道得太多)——传统指标无法区分这两种情况。
- 本文要解决什么? 设计能同时适用于单答案和多答案场景的生成置信度度量。
- 切入角度:关注输出分布的形状特征——自信模型的共性是"好序列远好于差序列"(陡峭斜率)和"差序列概率极低"(薄尾巴),无论好序列有几个。这些特征对输出多样性不敏感。
- 核心idea一句话:用概率比和尾部稀薄度替代 top-1 概率来度量生成置信度,对"多正确答案"场景鲁棒。
方法详解¶
整体框架¶
推理时用 beam search 生成 \(N=100\) 个候选序列,计算各序列概率,然后用两种新指标评估置信度。不需要任何额外训练或模型。
关键设计¶
- 比率方法(Ratio):
- 做什么:衡量最好序列与中等序列之间的概率差距
- 核心思路:\(\text{Ratio}(x) = \frac{p_{\hat{y}^{(1)}}(x)}{p_{\hat{y}^{(k)}}(x)}\),即 top-1 概率除以第 \(k\) 名概率。\(k\) 在验证集上调优
-
设计动机:自信模型会给最好的序列显著更高概率,不自信模型所有序列概率接近。通过比较头部和中部的差距来度量——有多个好答案时头部多个序列概率都高、但与中部差距仍然大
-
尾部稀薄度(Tail Thinness):
- 做什么:量化概率分布尾部的"厚度"
- 核心思路:\(\text{Tail Thinness}(x) = \sum_{i=1}^N p_{\hat{y}^{(i)}}(x)^2\)(softmax 归一化后的概率平方和)。数学上等价于 Herfindahl 指数
- 设计动机:自信模型的尾部(低质量序列)概率极低→平方和由头部主导→值大;不自信时均匀分布→平方和小。该指标对"有几个好答案"不敏感——只要差的答案概率低就行
损失函数 / 训练策略¶
- 无需额外训练——纯后处理指标,直接计算 beam search 输出的概率
- 对 BART Base 和 Flan-T5 Base 进行 SFT 微调后评估
- \(k\) 值和 softmax 温度在验证集上调优
实验关键数据¶
主实验(Spearman 相关性与输出质量)¶
| 任务 | 模型 | Top-1概率 | Ratio | Tail Thinness | 说明 |
|---|---|---|---|---|---|
| 摘要(ROUGE-L) | BART | 0.12 | 0.25 | 0.22 | 摘要开放度最高,改进最大 |
| 翻译(BLEU) | Flan-T5 | 0.31 | 0.38 | 0.36 | 翻译有多种有效表达 |
| 问答(F1) | Flan-T5 | 0.43 | 0.48 | 0.46 | QA 答案较收敛,改进最小但仍显著 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 不同 \(k\) 值 | \(k\) 与任务开放度正相关 | 开放任务需更大 \(k\)(更靠中部比较) |
| 不同 softmax 温度 | 影响 Tail Thinness 的灵敏度 | 高温突出差异,低温压平差异 |
| Ratio + Tail Thinness 组合 | 优于单用 | 两者捕获不同分布特征,互补 |
关键发现¶
- Ratio 和 Tail Thinness 在所有任务上一致优于 top-1 概率——差异有统计显著性(bootstrap test)
- 在开放度最高的任务(摘要)上改进最大——因为有效输出最多,top-1 失效最严重
- \(k\) 值与任务的答案多样性正相关——开放任务需要更远的参考点来判断头部是否真的"突出"
- 方法完全任务无关,不需要 NLI 模型、额外微调或任务特定设计
亮点与洞察¶
- 区分"不确定"和"多答案"是被忽视但重要的问题——传统方法将两者混为一谈,导致在生成任务中置信度校准失效。
- 从分布形状而非单点概率获取信息——概念简单但有效。关注概率分布的全局特征(陡峭度、尾部厚度)而非单个值。
- 方法极轻量——只需 beam search 已有的概率,零额外计算,零额外模型,可立即集成到任何生成系统中。
- 两种指标捕捉不同分布特征——Ratio 关注头部vs中部的差距,Tail Thinness 关注尾部是否稀薄,互补使用效果更好。
局限性 / 可改进方向¶
- 仅在较小模型(BART/Flan-T5 Base)上验证,大 LLM 的 beam search 序列分布可能不同
- Beam search 的 \(N=100\) 可能不够大来准确估计分布形状
- 未与 verbalized confidence(大模型自述置信度)方法对比——这是更新的范式
- 尾部稀薄度本质上是 Herfindahl Index,与序列级熵高度相关——改进的理论基础需要更深入分析
- \(k\) 值的最优选择依赖于任务特性,缺乏自动确定方法
相关工作与启发¶
- vs Semantic Entropy: 语义熵需要 NLI 模型对序列分组,更精确但成本更高;本方法无需额外模型
- vs 传统序列概率: 序列概率只看 top-1,忽略分布形态;本方法利用了多序列的概率关系
评分¶
- 新颖性: ⭐⭐⭐ 洞察有价值但方法较简单
- 实验充分度: ⭐⭐⭐ 三个任务+两个模型,但规模有限(short paper)
- 写作质量: ⭐⭐⭐⭐ 直觉解释清晰,图示好
- 价值: ⭐⭐⭐⭐ 简单实用的置信度改进,易于集成
技术细节补充¶
- Ratio方法使用比值而非差值来比较头部和中部概率,对不同长度序列的概率缩放更鲁棒
- Tail Thinness等价于Herfindahl-Hirschman Index(HHI),经济学中的市场集中度指标
- 两种方法的计算复杂度都是O(N),与beam search本身开销相比可忽略
- 实验使用BART Base和Flan-T5 Base(约140M/250M参数),更大LLM上行为可能不同
- Ratio敏感于头部分离度,Tail Thinness敏感于整体集中度,互补使用效果更好
- 在分类任务中(仅一个正确答案),Ratio退化为top-1 vs top-2概率比,等价传统方法
- 方法假设beam search输出能代表模型概率分布,但beam search有搜索偏差
- 未来可探索将这些指标与Semantic Entropy等方法结合
- 也可探索在sampling(而非beam search)场景下的适用性
- 代码已开源,便于复现和集成到现有NLG系统
技术细节补充¶
- Ratio方法使用比值而非差值来比较头部和中部概率,对不同长度序列的概率缩放更鲁棒
- Tail Thinness等价于Herfindahl-Hirschman Index(HHI),经济学中的市场集中度指标
- 两种方法的计算复杂度都是O(N),与beam search本身开销相比可忽略
- 实验使用BART Base和Flan-T5 Base(约140M/250M参数),更大LLM上行为可能不同
- Ratio敏感于头部分离度,Tail Thinness敏感于整体集中度,互补使用效果更好
- 在分类任务中(仅一个正确答案),Ratio退化为top-1 vs top-2概率比,等价传统方法
- 方法假设beam search输出能代表模型概率分布,但beam search有搜索偏差
- 未来可探索将这些指标与Semantic Entropy等方法结合
- 也可探索在sampling(而非beam search)场景下的适用性
- 代码已开源,便于复现和集成到现有NLG系统