ConfTuner: Training Large Language Models to Express Their Confidence Verbally¶

会议: NeurIPS 2025 arXiv: 2508.18847 代码: GitHub 领域: LLM / 不确定性校准 关键词: 置信度校准, 语言化置信度, Brier分数, proper scoring rule, LLM过度自信

一句话总结¶

ConfTuner 提出 tokenized Brier score 损失函数（理论证明为 proper scoring rule），仅需 2000 个样本 + 4 分钟 LoRA 微调即可让 LLM 输出校准的语言化置信度（如"我80%确定"），ECE 最大降低 60.9%，支持自我纠错和模型级联等下游应用。

研究背景与动机¶

领域现状：LLM 在高风险领域（医疗、法律、科学）的可靠部署需要知道"模型有多确定"。现有方法包括 logit-based 校准（但不适用于 API 模型）和 verbalized confidence（让模型说出置信度）。
现有痛点：LLM 严重过度自信——经常说"我100%确定"即使答案是错的。SaySelf 等方法需要大规模数据（900万样本），LACIE 需要10万样本且训练时间长。关键理论问题：什么样的损失函数能保证置信度校准？
核心矛盾：语言化置信度是离散的 token（"80%"是一个 token 而非概率值），经典的 Brier score 定义在连续概率上。如何将 proper scoring rule 理论扩展到 token 空间？
本文要解决什么：(1) 设计理论上有保证的置信度校准损失；(2) 以极低成本（2000样本/4分钟）实现校准。
切入角度：将 Brier score 从对概率值的评分推广到对"置信度 token 上的概率分布"的评分——如果模型在"80%"上放了更多概率质量，而真实正确率确实接近80%，则损失低。
核心idea一句话：Tokenized Brier score = 对置信度 token 的 proper scoring rule，迫使模型在最接近真实正确率的 token 上放最多概率。

方法详解¶

整体框架¶

两阶段：(1) 从 SFT 后的模型中提取置信度 token 的 logit 分布 \(\mathbf{q}\)；(2) 用 tokenized Brier score \(\ell(\mathbf{q}, y) = \sum_i q_i(y - i/N)^2\) 做 LoRA 微调（\(y\)=正确性指标）。

关键设计¶

Tokenized Brier Score（核心贡献）:
做什么：对置信度 token 集 \(\mathcal{T}_N = \{0\%, 10\%, ..., 100\%\}\) 上的 softmax 分布 \(\mathbf{q}\) 定义损失
公式：\(\ell(\mathbf{q}, y) = \sum_{i=0}^{N} q_i (y - i/N)^2\)
理论保证（Theorem 1）：这是 proper scoring rule——模型最小化损失的最优策略是将概率集中在最接近真实条件正确率 \(\eta(x)\) 的 token 上
设计动机：经典 Brier score 对单个概率值评分，但 LLM 输出的是 token 上的分布——需要推广
极简 LoRA 微调:
做什么：rank-8 LoRA 仅在 query/value 投影上微调
仅需 2000 个样本，4 分钟训练（单 GPU）
对比：SaySelf 需 900万样本/120分钟，LACIE 需 10万/26分钟
设计动机：最小改动保留模型原有能力
下游应用（自我纠错 + 级联）:
自我纠错：低置信度时拒绝回答或重新思考 → 3-10% 准确率提升
模型级联：低置信度时路由到 GPT-4o → HotpotQA 上 +9.3%

损失函数 / 训练策略¶

Tokenized Brier score + LoRA。LLaMA 用 \(\mathcal{T}_{100}\)（0-100%），Qwen/Ministral 用 \(\mathcal{T}_9\)（0-9 离散等级）。

实验关键数据¶

主实验（5 个推理基准平均 ECE↓ / AUROC↑）¶

模型	ECE (Base)	ECE (ConfTuner)	改善	AUROC (Base)	AUROC (ConfTuner)
LLaMA	0.2768	0.1082	-60.9%	0.5923	0.6740
Qwen	0.3781	0.2872	-23.9%	0.6155	0.6861
Ministral	0.4393	0.1884	-57.1%	0.5216	0.6810

消融实验¶

配置	关键发现	说明
2000 vs 5000 vs 10000 样本	2000 已足够	极低数据需求
4分钟 vs SaySelf 120分钟	30倍加速	计算效率极高
语言化变体（高/中/低）	泛化有效	不限于数字化置信度
隐式置信度（CoT中表达）	也有效	非显式"X%"也可校准
黑盒模型（GPT-4o）	也改善	通过 prompt 框架
自我纠错	+3-10% 准确率	实用下游应用
模型级联	+9.3% (HotpotQA)	置信度用于路由

关键发现¶

ECE -60.9% 是最突出的数字——说明 LLM 的置信度从接近随机变为有意义的信号
2000 样本 + 4 分钟定义了"成本下限"——很难想象更低成本的校准方案
级联应用展示了置信度的实用价值——知道何时该请求更强模型

亮点与洞察¶

理论的力量：proper scoring rule 保证模型不能通过"作弊"（如所有回答都说50%）来降低损失——唯一最优策略就是真诚校准。这比临时设计的损失函数有根本优势。
"2000样本4分钟"：极低的成本意味着任何使用 LLM 的团队都可以做置信度校准——民主化了不确定性估计。
从校准到决策：校准本身不是目的，自我纠错和级联才是。论文展示了完整的"校准→利用"链路。

局限性 / 可改进方向¶

限于固定的置信度 token 集，灵活的自然语言表达（如"我相当确定但不完全肯定"）未处理
理论保证与实践仍有差距——数据质量和优化动态会影响实际校准
仅在推理任务上验证，创意写作/翻译等任务的校准未探索
proper scoring rule 假设独立样本——多轮对话中的依赖关系未考虑

评分¶

新颖性: ⭐⭐⭐⭐⭐ Tokenized Brier score 的理论推广优雅且有实际意义
实验充分度: ⭐⭐⭐⭐ 3模型×5基准×下游应用×效率对比
写作质量: ⭐⭐⭐⭐⭐ 理论和实验叙事结合紧密
价值: ⭐⭐⭐⭐⭐ 2000样本+4分钟的校准方案对LLM部署有直接实用价值\n
vs CalibrateBeforeUse: CBU在推理时做温度缩放；ConfTuner直接校准输出token的语义，更适合API场景
vs 集成方法 (Self-Consistency): 多次采样取一致性做置信度估计成本高（需N次推理），ConfTuner将知识内化为单次输出
启发其他模态: Tokenized proper scoring rule的框架可推广到VLM的视觉置信度、语音识别的可靠度等
对RLHF的启示: ConfTuner的校准可改善RLHF中的奖励模型——校准后的置信度是更好的训练信号
对Agent系统的价值: 自主Agent需要知道何时该求助人类——校准的置信度提供了可靠的决策依据
与Bayesian方法的关系: ConfTuner的校准可视为将LLM输出映射到近似贝叶斯后验概率
多语言扩展: 置信度表达在不同语言中的自然表述不同，跨语言校准是开放问题
长文本场景: 当回答包含多个claim时，每个claim的独立置信度比全局置信度更有价值
vs CalibrateBeforeUse: CBU在推理时做温度缩放；ConfTuner直接校准输出token的语义，更适合API场景
vs 集成方法 (Self-Consistency): 多次采样取一致性做置信度估计成本高（需N次推理），ConfTuner将知识内化为单次输出
启发其他模态: Tokenized proper scoring rule的框架可推广到VLM的视觉置信度、语音识别的可靠度等
对RLHF的启示: ConfTuner的校准可改善RLHF中的奖励模型——校准后的置信度是更好的训练信号
对Agent系统的价值: 自主Agent需要知道何时该求助人类——校准的置信度提供了可靠的决策依据
与Bayesian方法的关系: ConfTuner的校准可视为将LLM输出映射到近似贝叶斯后验概率
多语言扩展: 置信度表达在不同语言中的自然表述不同，跨语言校准是开放问题
长文本场景: 当回答包含多个claim时，每个claim的独立置信度比全局置信度更有价值
vs CalibrateBeforeUse: CBU在推理时做温度缩放；ConfTuner直接校准输出token的语义，更适合API场景
vs 集成方法 (Self-Consistency): 多次采样取一致性做置信度估计成本高（需N次推理），ConfTuner将知识内化为单次输出
启发其他模态: Tokenized proper scoring rule的框架可推广到VLM的视觉置信度、语音识别的可靠度等
对RLHF的启示: ConfTuner的校准可改善RLHF中的奖励模型——校准后的置信度是更好的训练信号
对Agent系统的价值: 自主Agent需要知道何时该求助人类——校准的置信度提供了可靠的决策依据
与Bayesian方法的关系: ConfTuner的校准可视为将LLM输出映射到近似贝叶斯后验概率
多语言扩展: 置信度表达在不同语言中的自然表述不同，跨语言校准是开放问题
长文本场景: 当回答包含多个claim时，每个claim的独立置信度比全局置信度更有价值