跳转至

Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence

会议: ACL 2025
arXiv: 2512.11998
代码: 无
领域: LLM/NLP
关键词: confidence calibration, DPO, verbalized confidence, internal confidence, trustworthiness

一句话总结

通过 DPO 将 LLM 的外化置信度(文字表达的概率)与内部置信度(token 概率)对齐,提升模型的透明度和可信度,Gemma-2-9B 上表现最佳。

研究背景与动机

  1. 领域现状:LLM 的置信度校准通常关注"准确率校准"(置信度与正确率对齐)。
  2. 现有痛点:LLM 的外化置信度(say "I'm 90% confident")与内部置信度(token概率)经常不一致,导致用户无法判断可信度。
  3. 核心矛盾:内外置信度不一致使 LLM 的不确定性表达不可靠。
  4. 本文要解决什么? 对齐内外置信度(而非对齐到准确率)。
  5. 切入角度:用 DPO 构建偏好对——将外化置信度替换为内部置信度的版本作为 chosen。
  6. 核心idea一句话:让模型学会"诚实表达信心"——外化置信度应反映内部确信程度。

方法详解

整体框架

提取外化置信度和内部置信度 -> 构建偏好数据(内部置信度版本为 chosen)-> DPO 训练 -> 评估内外一致性。

关键设计

  1. 偏好对构建:对每个问题,chosen 版本用内部置信度替换外化置信度,rejected 保持原始
  2. IPO 损失:使用改进版偏好优化防止过拟合
  3. 新评估指标:σ_ε(校准误差标准差)、|ε|_bar(平均绝对校准误差)

实验关键数据

主实验

模型 Vanilla σ_ε DCA σ_ε 提升
Gemma-2-9B 16.97 13.79 -19%
Llama-3.2-3B 41.19 22.88 -44%
Mistral-7B 25.63 22.93 -11%

消融

配置 效果 说明
DCA on Gemma 全面提升 架构最适合
DCA on Mistral 准确率下降 存在权衡

关键发现

  • 模型依赖性强:Gemma 效果最好,Mistral 有准确率下降风险
  • Llama 意外获益:DCA 不仅对齐置信度,还提升了准确率

亮点与洞察

  • 首次用 DPO 做置信度对齐(非准确率对齐),概念新颖
  • 揭示了不同架构在置信度行为上的根本差异

局限性 / 可改进方向

  • 仅适用于开源模型(需访问 logits)
  • 某些模型准确率下降的权衡未解决

相关工作与启发

  • vs 温度缩放:温度缩放改变内部置信度分布,DCA 改变外化表达

评分

  • 新颖性: ⭐⭐⭐⭐ DPO 做置信度对齐是新颖应用
  • 实验充分度: ⭐⭐⭐ 3模型4数据集,但样本量偏小
  • 写作质量: ⭐⭐⭐⭐ 结构清晰
  • 价值: ⭐⭐⭐ 对 LLM 可信度研究有启发