Calibrating Verbalized Confidence with Self-Generated Distractors¶

会议: ICLR 2026
arXiv: 2509.25532
代码: https://github.com/victorwang37/dinco (有)
领域: 人类理解 / LLM NLP / 可靠性
关键词: 置信度校准, 语言化概率, 干扰项生成, 自动升级, LLM可靠性

一句话总结¶

提出 DiNCo（Distractor-Normalized Confidence）方法，让 LLM 自动生成"合理但错误"的干扰选项，然后在干扰选项集合上归一化置信度分数，实现跨难度级别的置信度校准，在 TriviaQA 上以 95.2% 均衡准确率和仅 3.5% 人类介入率实现可靠的自动决策。

领域现状：LLM 可以被直接询问"你对答案有多确定"（语言化置信度），输出 0-1 分数。这种方法比多次采样更高效（仅需 1 次调用），但校准质量差。
现有痛点：语言化置信度的绝对值不可比——在简单问题上，错误答案也可能得到 0.8 的置信度；在困难问题上，正确答案可能只有 0.6。ECE（Expected Calibration Error）显著偏高。
核心矛盾：LLM 的置信度更像是对"答案流畅性"而非"答案正确性"的度量，缺乏将置信度锚定到真实不确定性的机制。
本文要解决什么？ 如何在不增加 API 调用次数的前提下，提升语言化置信度的校准质量？
切入角度：灵感来自考试设计——好的选择题需要"合理的干扰项"来区分真正掌握知识的学生。同理，让 LLM 生成干扰项并评估相对置信度。
核心idea一句话：用自生成干扰项的相对置信度替代绝对置信度——"答案比其他选项好多少"比"答案有多好"更可靠。

四步流程：(1) LLM 回答问题并给出初始置信度，(2) LLM 为自己的答案生成 K 个合理干扰项，(3) LLM 在包含正确答案和干扰项的选项集上重新评估置信度并归一化，(4) 根据归一化置信度决定是否升级给人类。

自生成干扰项:
做什么：让同一个 LLM 生成与正确答案竞争的合理替代选项
核心思路：提示 LLM "给出 K 个看起来合理但实际错误的替代答案"。关键是干扰项要足够"有迷惑性"但不能是正确的。
设计动机：模型对干扰项的熟悉度和对正确答案的区分度直接反映了它的真实知识水平。
归一化置信度:
做什么：在选项集合上重新评估并归一化
核心思路：对每个选项 o_i 计算 LLM 的置信度 p(o_i)，然后归一化：p_norm(o_i) = p(o_i) / sum(p(o_j))。极高的归一化分数意味着模型能明确区分正确答案和干扰项。
设计动机：归一化将绝对置信度转化为相对置信度，自动适应不同难度级别。
基于协议的人类升级:
做什么：当模型不确定时自动升级给人类处理
核心思路：多次采样如果结果不一致（归一化置信度低于阈值），标记为"需要人类审核"。
设计动机：在实际部署中，模型需要知道自己"不知道什么"，将不确定的案例交给人类。

数据集	方法	均衡准确率	人类介入率
TriviaQA	原始置信度	~85%	0%
TriviaQA	多次采样	~90%	0%
TriviaQA	DiNCo	95.2%	3.5%