Direct Confidence Alignment: Aligning Verbalized Confidence with Internal Confidence¶
会议: ACL 2025
arXiv: 2512.11998
代码: 无
领域: LLM/NLP
关键词: confidence calibration, DPO, verbalized confidence, internal confidence, trustworthiness
一句话总结¶
通过 DPO 将 LLM 的外化置信度(文字表达的概率)与内部置信度(token 概率)对齐,提升模型的透明度和可信度,Gemma-2-9B 上表现最佳。
研究背景与动机¶
- 领域现状:LLM 的置信度校准通常关注"准确率校准"(置信度与正确率对齐)。
- 现有痛点:LLM 的外化置信度(say "I'm 90% confident")与内部置信度(token概率)经常不一致,导致用户无法判断可信度。
- 核心矛盾:内外置信度不一致使 LLM 的不确定性表达不可靠。
- 本文要解决什么? 对齐内外置信度(而非对齐到准确率)。
- 切入角度:用 DPO 构建偏好对——将外化置信度替换为内部置信度的版本作为 chosen。
- 核心idea一句话:让模型学会"诚实表达信心"——外化置信度应反映内部确信程度。
方法详解¶
整体框架¶
提取外化置信度和内部置信度 -> 构建偏好数据(内部置信度版本为 chosen)-> DPO 训练 -> 评估内外一致性。
关键设计¶
- 偏好对构建:对每个问题,chosen 版本用内部置信度替换外化置信度,rejected 保持原始
- IPO 损失:使用改进版偏好优化防止过拟合
- 新评估指标:σ_ε(校准误差标准差)、|ε|_bar(平均绝对校准误差)
实验关键数据¶
主实验¶
| 模型 | Vanilla σ_ε | DCA σ_ε | 提升 |
|---|---|---|---|
| Gemma-2-9B | 16.97 | 13.79 | -19% |
| Llama-3.2-3B | 41.19 | 22.88 | -44% |
| Mistral-7B | 25.63 | 22.93 | -11% |
消融¶
| 配置 | 效果 | 说明 |
|---|---|---|
| DCA on Gemma | 全面提升 | 架构最适合 |
| DCA on Mistral | 准确率下降 | 存在权衡 |
关键发现¶
- 模型依赖性强:Gemma 效果最好,Mistral 有准确率下降风险
- Llama 意外获益:DCA 不仅对齐置信度,还提升了准确率
亮点与洞察¶
- 首次用 DPO 做置信度对齐(非准确率对齐),概念新颖
- 揭示了不同架构在置信度行为上的根本差异
局限性 / 可改进方向¶
- 仅适用于开源模型(需访问 logits)
- 某些模型准确率下降的权衡未解决
相关工作与启发¶
- vs 温度缩放:温度缩放改变内部置信度分布,DCA 改变外化表达
评分¶
- 新颖性: ⭐⭐⭐⭐ DPO 做置信度对齐是新颖应用
- 实验充分度: ⭐⭐⭐ 3模型4数据集,但样本量偏小
- 写作质量: ⭐⭐⭐⭐ 结构清晰
- 价值: ⭐⭐⭐ 对 LLM 可信度研究有启发