跳转至

Calibrating Verbalized Confidence with Self-Generated Distractors

会议: ICLR 2026
arXiv: 2509.25532
代码: https://github.com/victorwang37/dinco (有)
领域: 人类理解 / LLM NLP / 可靠性
关键词: 置信度校准, 语言化概率, 干扰项生成, 自动升级, LLM可靠性

一句话总结

提出 DiNCo(Distractor-Normalized Confidence)方法,让 LLM 自动生成"合理但错误"的干扰选项,然后在干扰选项集合上归一化置信度分数,实现跨难度级别的置信度校准,在 TriviaQA 上以 95.2% 均衡准确率和仅 3.5% 人类介入率实现可靠的自动决策。

研究背景与动机

  1. 领域现状:LLM 可以被直接询问"你对答案有多确定"(语言化置信度),输出 0-1 分数。这种方法比多次采样更高效(仅需 1 次调用),但校准质量差。
  2. 现有痛点:语言化置信度的绝对值不可比——在简单问题上,错误答案也可能得到 0.8 的置信度;在困难问题上,正确答案可能只有 0.6。ECE(Expected Calibration Error)显著偏高。
  3. 核心矛盾:LLM 的置信度更像是对"答案流畅性"而非"答案正确性"的度量,缺乏将置信度锚定到真实不确定性的机制。
  4. 本文要解决什么? 如何在不增加 API 调用次数的前提下,提升语言化置信度的校准质量?
  5. 切入角度:灵感来自考试设计——好的选择题需要"合理的干扰项"来区分真正掌握知识的学生。同理,让 LLM 生成干扰项并评估相对置信度。
  6. 核心idea一句话:用自生成干扰项的相对置信度替代绝对置信度——"答案比其他选项好多少"比"答案有多好"更可靠。

方法详解

整体框架

四步流程:(1) LLM 回答问题并给出初始置信度,(2) LLM 为自己的答案生成 K 个合理干扰项,(3) LLM 在包含正确答案和干扰项的选项集上重新评估置信度并归一化,(4) 根据归一化置信度决定是否升级给人类。

关键设计

  1. 自生成干扰项:
  2. 做什么:让同一个 LLM 生成与正确答案竞争的合理替代选项
  3. 核心思路:提示 LLM "给出 K 个看起来合理但实际错误的替代答案"。关键是干扰项要足够"有迷惑性"但不能是正确的。
  4. 设计动机:模型对干扰项的熟悉度和对正确答案的区分度直接反映了它的真实知识水平。

  5. 归一化置信度:

  6. 做什么:在选项集合上重新评估并归一化
  7. 核心思路:对每个选项 o_i 计算 LLM 的置信度 p(o_i),然后归一化:p_norm(o_i) = p(o_i) / sum(p(o_j))。极高的归一化分数意味着模型能明确区分正确答案和干扰项。
  8. 设计动机:归一化将绝对置信度转化为相对置信度,自动适应不同难度级别。

  9. 基于协议的人类升级:

  10. 做什么:当模型不确定时自动升级给人类处理
  11. 核心思路:多次采样如果结果不一致(归一化置信度低于阈值),标记为"需要人类审核"。
  12. 设计动机:在实际部署中,模型需要知道自己"不知道什么",将不确定的案例交给人类。

实验关键数据

主实验

数据集 方法 均衡准确率 人类介入率
TriviaQA 原始置信度 ~85% 0%
TriviaQA 多次采样 ~90% 0%
TriviaQA DiNCo 95.2% 3.5%

关键发现

  • 3.5% 的人类介入率换来 10% 的准确率提升,性价比极高
  • 干扰项质量对校准效果有显著影响——过于简单的干扰项无区分度
  • 归一化后的 ECE 显著低于原始语言化置信度

亮点与洞察

  • 考试设计的隐喻:将"出选择题"的思路引入 LLM 置信度校准,直觉简单但效果好。
  • 极低的人类介入率:3.5% 意味着每 100 个问题只需人类审核 3-4 个,适合大规模部署。
  • 无需额外训练:纯推理时技术,与任何黑盒 LLM 兼容。

局限性 / 可改进方向

  • 干扰项的生成质量依赖 LLM 本身的知识,对于 LLM 完全不懂的领域可能生成不出好的干扰项
  • 额外生成干扰项增加了 API 调用次数(虽然比多次采样少,但仍非零成本)
  • 仅在 QA 任务上验证,对生成任务的适用性未知

相关工作与启发

  • vs 语义熵: 语义熵需要多次采样计算语义聚类,DiNCo 通过干扰项实现更高效的校准
  • vs Verbalized Confidence: DiNCo 在其上加了干扰项归一化,显著改善校准

评分

  • 新颖性: ⭐⭐⭐⭐ 干扰项归一化的想法新颖且直觉
  • 实验充分度: ⭐⭐⭐⭐ 多数据集多模型验证
  • 写作质量: ⭐⭐⭐⭐ 论述清晰
  • 价值: ⭐⭐⭐⭐⭐ 实用的 LLM 可靠性部署方法