跳转至

📚 AI Paper Notes

Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence

Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence¶

会议: ACL 2025
arXiv: 2512.11998
代码: 无
领域: LLM/NLP
关键词: confidence calibration, DPO, verbalized confidence, internal confidence, trustworthiness

一句话总结¶

通过 DPO 将 LLM 的外化置信度（文字表达的概率）与内部置信度（token 概率）对齐，提升模型的透明度和可信度，Gemma-2-9B 上表现最佳。

研究背景与动机¶

领域现状：LLM 的置信度校准通常关注"准确率校准"（置信度与正确率对齐）。
现有痛点：LLM 的外化置信度（say "I'm 90% confident"）与内部置信度（token概率）经常不一致，导致用户无法判断可信度。
核心矛盾：内外置信度不一致使 LLM 的不确定性表达不可靠。
本文要解决什么？ 对齐内外置信度（而非对齐到准确率）。
切入角度：用 DPO 构建偏好对——将外化置信度替换为内部置信度的版本作为 chosen。
核心idea一句话：让模型学会"诚实表达信心"——外化置信度应反映内部确信程度。

方法详解¶

整体框架¶

提取外化置信度和内部置信度 -> 构建偏好数据（内部置信度版本为 chosen）-> DPO 训练 -> 评估内外一致性。

关键设计¶

偏好对构建：对每个问题，chosen 版本用内部置信度替换外化置信度，rejected 保持原始
IPO 损失：使用改进版偏好优化防止过拟合
新评估指标：σ_ε（校准误差标准差）、|ε|_bar（平均绝对校准误差）

实验关键数据¶

主实验¶

模型	Vanilla σ_ε	DCA σ_ε	提升
Gemma-2-9B	16.97	13.79	-19%
Llama-3.2-3B	41.19	22.88	-44%
Mistral-7B	25.63	22.93	-11%

消融¶

配置	效果	说明
DCA on Gemma	全面提升	架构最适合
DCA on Mistral	准确率下降	存在权衡

关键发现¶

模型依赖性强：Gemma 效果最好，Mistral 有准确率下降风险
Llama 意外获益：DCA 不仅对齐置信度，还提升了准确率

亮点与洞察¶

首次用 DPO 做置信度对齐（非准确率对齐），概念新颖
揭示了不同架构在置信度行为上的根本差异

局限性 / 可改进方向¶

仅适用于开源模型（需访问 logits）
某些模型准确率下降的权衡未解决

相关工作与启发¶

vs 温度缩放：温度缩放改变内部置信度分布，DCA 改变外化表达

评分¶

新颖性: ⭐⭐⭐⭐ DPO 做置信度对齐是新颖应用
实验充分度: ⭐⭐⭐ 3模型4数据集，但样本量偏小
写作质量: ⭐⭐⭐⭐ 结构清晰
价值: ⭐⭐⭐ 对 LLM 可信度研究有启发