跳转至

Improving the Calibration of Confidence Scores in Text Generation Using the Output Distribution's Characteristics

会议: ACL 2025 (Short)
arXiv: 2506.00637
代码: https://github.com/ljyflores/calibrated-confidence-for-nlg
领域: 文本生成
关键词: 置信度校准, 文本生成, 概率分布, 尾部稀薄度, 生成不确定性

一句话总结

针对文本生成中多个有效输出导致传统置信度指标失效的问题,提出两种任务无关的置信度度量——"比率"(头部vs中部概率比)和"尾部稀薄度"(分布尾部薄厚),仅依赖模型输出概率即可改善 BART/Flan-T5 在摘要、翻译、问答任务上的置信度校准。

研究背景与动机

  1. 领域现状:模型置信度评估通常关注最高概率序列——高概率=高置信。这在分类任务中有效(只有一个正确答案),已有大量校准方法。
  2. 现有痛点:文本生成任务有多个有效输出(如翻译的多种表达、摘要的多种组织方式)。一个有能力的模型可能将概率分散到多个好的序列上,导致最高概率序列的绝对概率不高——被传统方法误判为低置信。
  3. 核心矛盾:在生成任务中,低 top-1 概率可能意味着"不确定"(模型真的不知道),也可能意味着"多个好答案"(模型知道得太多)——传统指标无法区分这两种情况。
  4. 本文要解决什么? 设计能同时适用于单答案和多答案场景的生成置信度度量。
  5. 切入角度:关注输出分布的形状特征——自信模型的共性是"好序列远好于差序列"(陡峭斜率)和"差序列概率极低"(薄尾巴),无论好序列有几个。这些特征对输出多样性不敏感。
  6. 核心idea一句话:用概率比和尾部稀薄度替代 top-1 概率来度量生成置信度,对"多正确答案"场景鲁棒。

方法详解

整体框架

推理时用 beam search 生成 \(N=100\) 个候选序列,计算各序列概率,然后用两种新指标评估置信度。不需要任何额外训练或模型。

关键设计

  1. 比率方法(Ratio):
  2. 做什么:衡量最好序列与中等序列之间的概率差距
  3. 核心思路:\(\text{Ratio}(x) = \frac{p_{\hat{y}^{(1)}}(x)}{p_{\hat{y}^{(k)}}(x)}\),即 top-1 概率除以第 \(k\) 名概率。\(k\) 在验证集上调优
  4. 设计动机:自信模型会给最好的序列显著更高概率,不自信模型所有序列概率接近。通过比较头部和中部的差距来度量——有多个好答案时头部多个序列概率都高、但与中部差距仍然大

  5. 尾部稀薄度(Tail Thinness):

  6. 做什么:量化概率分布尾部的"厚度"
  7. 核心思路:\(\text{Tail Thinness}(x) = \sum_{i=1}^N p_{\hat{y}^{(i)}}(x)^2\)(softmax 归一化后的概率平方和)。数学上等价于 Herfindahl 指数
  8. 设计动机:自信模型的尾部(低质量序列)概率极低→平方和由头部主导→值大;不自信时均匀分布→平方和小。该指标对"有几个好答案"不敏感——只要差的答案概率低就行

损失函数 / 训练策略

  • 无需额外训练——纯后处理指标,直接计算 beam search 输出的概率
  • 对 BART Base 和 Flan-T5 Base 进行 SFT 微调后评估
  • \(k\) 值和 softmax 温度在验证集上调优

实验关键数据

主实验(Spearman 相关性与输出质量)

任务 模型 Top-1概率 Ratio Tail Thinness 说明
摘要(ROUGE-L) BART 0.12 0.25 0.22 摘要开放度最高,改进最大
翻译(BLEU) Flan-T5 0.31 0.38 0.36 翻译有多种有效表达
问答(F1) Flan-T5 0.43 0.48 0.46 QA 答案较收敛,改进最小但仍显著

消融实验

配置 效果 说明
不同 \(k\) \(k\) 与任务开放度正相关 开放任务需更大 \(k\)(更靠中部比较)
不同 softmax 温度 影响 Tail Thinness 的灵敏度 高温突出差异,低温压平差异
Ratio + Tail Thinness 组合 优于单用 两者捕获不同分布特征,互补

关键发现

  • Ratio 和 Tail Thinness 在所有任务上一致优于 top-1 概率——差异有统计显著性(bootstrap test)
  • 在开放度最高的任务(摘要)上改进最大——因为有效输出最多,top-1 失效最严重
  • \(k\) 值与任务的答案多样性正相关——开放任务需要更远的参考点来判断头部是否真的"突出"
  • 方法完全任务无关,不需要 NLI 模型、额外微调或任务特定设计

亮点与洞察

  • 区分"不确定"和"多答案"是被忽视但重要的问题——传统方法将两者混为一谈,导致在生成任务中置信度校准失效。
  • 从分布形状而非单点概率获取信息——概念简单但有效。关注概率分布的全局特征(陡峭度、尾部厚度)而非单个值。
  • 方法极轻量——只需 beam search 已有的概率,零额外计算,零额外模型,可立即集成到任何生成系统中。
  • 两种指标捕捉不同分布特征——Ratio 关注头部vs中部的差距,Tail Thinness 关注尾部是否稀薄,互补使用效果更好。

局限性 / 可改进方向

  • 仅在较小模型(BART/Flan-T5 Base)上验证,大 LLM 的 beam search 序列分布可能不同
  • Beam search 的 \(N=100\) 可能不够大来准确估计分布形状
  • 未与 verbalized confidence(大模型自述置信度)方法对比——这是更新的范式
  • 尾部稀薄度本质上是 Herfindahl Index,与序列级熵高度相关——改进的理论基础需要更深入分析
  • \(k\) 值的最优选择依赖于任务特性,缺乏自动确定方法

相关工作与启发

  • vs Semantic Entropy: 语义熵需要 NLI 模型对序列分组,更精确但成本更高;本方法无需额外模型
  • vs 传统序列概率: 序列概率只看 top-1,忽略分布形态;本方法利用了多序列的概率关系

评分

  • 新颖性: ⭐⭐⭐ 洞察有价值但方法较简单
  • 实验充分度: ⭐⭐⭐ 三个任务+两个模型,但规模有限(short paper)
  • 写作质量: ⭐⭐⭐⭐ 直觉解释清晰,图示好
  • 价值: ⭐⭐⭐⭐ 简单实用的置信度改进,易于集成

技术细节补充

  • Ratio方法使用比值而非差值来比较头部和中部概率,对不同长度序列的概率缩放更鲁棒
  • Tail Thinness等价于Herfindahl-Hirschman Index(HHI),经济学中的市场集中度指标
  • 两种方法的计算复杂度都是O(N),与beam search本身开销相比可忽略
  • 实验使用BART Base和Flan-T5 Base(约140M/250M参数),更大LLM上行为可能不同
  • Ratio敏感于头部分离度,Tail Thinness敏感于整体集中度,互补使用效果更好
  • 在分类任务中(仅一个正确答案),Ratio退化为top-1 vs top-2概率比,等价传统方法
  • 方法假设beam search输出能代表模型概率分布,但beam search有搜索偏差
  • 未来可探索将这些指标与Semantic Entropy等方法结合
  • 也可探索在sampling(而非beam search)场景下的适用性
  • 代码已开源,便于复现和集成到现有NLG系统

技术细节补充

  • Ratio方法使用比值而非差值来比较头部和中部概率,对不同长度序列的概率缩放更鲁棒
  • Tail Thinness等价于Herfindahl-Hirschman Index(HHI),经济学中的市场集中度指标
  • 两种方法的计算复杂度都是O(N),与beam search本身开销相比可忽略
  • 实验使用BART Base和Flan-T5 Base(约140M/250M参数),更大LLM上行为可能不同
  • Ratio敏感于头部分离度,Tail Thinness敏感于整体集中度,互补使用效果更好
  • 在分类任务中(仅一个正确答案),Ratio退化为top-1 vs top-2概率比,等价传统方法
  • 方法假设beam search输出能代表模型概率分布,但beam search有搜索偏差
  • 未来可探索将这些指标与Semantic Entropy等方法结合
  • 也可探索在sampling(而非beam search)场景下的适用性
  • 代码已开源,便于复现和集成到现有NLG系统