Reasoning Models Better Express Their Confidence¶

会议: NeurIPS 2025
arXiv: 2505.14489
代码: GitHub (有)
领域: LLM推理
关键词: confidence calibration, reasoning models, chain-of-thought, slow thinking, verbalized confidence, ECE, Brier Score

一句话总结¶

系统性证明推理模型（extended CoT）比非推理模型具有显著更优的置信度校准能力，并揭示"慢思考"行为（探索替代方案、回溯、验证）是校准提升的根本来源。

研究背景与动机¶

领域现状: LLM 越来越多地被用于高风险决策场景，模型能否准确表达自身的不确定性（即置信度校准）直接关系到可信赖 AI 的部署。
现有痛点: 前人工作发现 LLM 的语言化置信度存在过度自信问题，但这些研究大多针对传统（非推理）模型，尚未系统性考察推理模型的校准表现。
核心观察: 推理模型在生成答案前会进行显式的 extended chain-of-thought，包含探索、回溯、验证等"慢思考"过程——这与人类在不确定时"多想想再给答案"的直觉一致。
本文要解决什么？ (1) 推理模型是否比非推理模型校准更好？(2) 校准提升的来源是什么？是模型能力差异还是慢思考过程本身？
切入角度: 对比 6 组推理 vs 非推理模型在多个知识问答 benchmark 上的校准表现，并通过 CoT 展开分析和消融实验定位校准增益来源。
核心 idea 一句话: 推理模型的"慢思考"过程——探索替代方案、回溯修正、自我验证——天然地让模型更准确地感知自身的不确定性。

方法详解¶

实验设计¶

推理模型 (6个): R1-Distill-Qwen-32B, QwQ-32B-Preview, OR1-Preview, GLM-Z1-Air-0414, EXAONE-Deep-32B, Qwen3-235B-A22B-Thinking
非推理对照组: 每个推理模型对应一个同系列/同规模的非推理模型（如 Qwen2.5-32B-Instruct 对照 R1-Distill-Qwen-32B）
数据集 (6个): TriviaQA, NonambigQA, MMLU-Pro-Math, MMLU-Pro-NonMath, SuperGPQA-Math, SuperGPQA-NonMath

置信度提取¶

采用语言化置信度 (verbalized confidence): 将置信度分为 10 个区间（"Almost no chance 0-0.1" 到 "Almost certain 0.9-1.0"）
每个模型在回答后被要求从 10 个选项中选择一个作为置信度表达
取每个区间的中间值作为数值置信度（如 0-0.1 → 0.05）

校准评估指标¶

ECE (Expected Calibration Error): 衡量预测置信度与实际准确率之间的差距，越低越好
Brier Score: 综合衡量校准和分辨能力，越低越好
AUROC: 衡量模型区分正确/错误回答的能力，越高越好

CoT 展开分析¶

将推理过程按 token 位置等分为多个阶段
在每个阶段截断 CoT 后要求模型给出置信度
观察校准指标随 CoT 展开的变化趋势

慢思考行为分析¶

定义三种关键的"慢思考"行为： 1. 探索替代方案 (Exploring Alternatives): 考虑多种可能的答案或解法 2. 回溯 (Backtracking): 推翻先前的推理步骤并修正 3. 验证 (Verification): 对自己的答案进行检查确认

通过消融实验，将 CoT 中包含这些行为的片段移除，观察校准变化。

非推理模型 + 慢思考 ICL¶

通过 in-context learning 向非推理模型展示包含慢思考行为的推理示例
测试非推理模型在被引导进行慢思考后的校准改善情况

实验关键数据¶

主实验: 推理 vs 非推理模型校准¶

推理模型在 33/36 个设置中（6 模型 × 6 数据集）的校准指标优于非推理对照组
所有三个指标（ECE↓、Brier Score↓、AUROC↑）上推理模型均表现更佳

各指标典型差异¶

指标	推理模型（平均）	非推理模型（平均）	改善
ECE ↓	更低	更高	推理模型显著更优
Brier Score ↓	更低	更高	推理模型显著更优
AUROC ↑	更高	更低	推理模型显著更优

CoT 展开趋势¶

推理模型: 校准随 CoT 展开稳步改善 (p<0.05)，ECE 和 Brier Score 持续下降，AUROC 持续上升
非推理模型: CoT 展开过程中无此趋势，校准指标基本不变

慢思考消融¶

移除 CoT 中的慢思考结构（探索替代、回溯、验证）后，推理模型的校准显著退化
证明校准增益确实来源于慢思考过程而非模型的其他能力差异

非推理模型 + 慢思考 ICL¶

非推理模型在被引导进行慢思考后，校准也获得提升
进一步佐证"慢思考"本身是校准改善的因果性来源

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统性地将推理模型的 extended CoT 与置信度校准联系起来，发现慢思考是校准的因果来源
方法强度: ⭐⭐⭐⭐ — 6 组对照、6 个数据集、36 个设置的全面比较；CoT 展开分析和消融实验设计严谨
实用性: ⭐⭐⭐⭐ — 对 LLM 在高风险决策中的部署有直接指导意义；ICL 引导慢思考的方法可立即应用于非推理模型
整体: ⭐⭐⭐⭐

亮点¶

33/36 的压倒性优势: 推理模型几乎在所有设置下都优于非推理模型，结论高度鲁棒
因果性分析: 不仅展示相关性，还通过消融（移除慢思考）和干预（ICL 注入慢思考）两个方向建立因果关系
CoT 展开分析: 揭示校准随推理过程"逐步改善"的现象，提供了理解推理模型内部机制的新视角
可迁移发现: 非推理模型也能通过引导慢思考获得校准提升，具有广泛的应用价值
直觉一致性: "想得越多，对自己的判断越准确"——这一发现与人类认知直觉高度吻合

局限性 / 可改进方向¶

仅限语言化置信度: 未考察 token-level logit 置信度（推理模型 API 通常不公开 logits），可能遗漏互补信号
模型规模限制: 主要使用 32B 级别开源模型，未包含 GPT-o1/o3、Claude 等闭源推理模型的对比
任务类型单一: 集中在知识型 QA，未覆盖推理密集型任务（数学证明、代码生成等）的校准表现
慢思考行为分类粗粒度: 仅分为三类（探索、回溯、验证），更细粒度的行为分类可能揭示更多校准机制
ICL 引导的规模化: 通过 ICL 在非推理模型中注入慢思考的效果可能受示例选择和 prompt 设计影响
缺乏理论解释: 为何慢思考能改善校准？缺乏数学/信息论层面的理论分析

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统揭示推理模型在置信度校准上的优势，并归因于慢思考机制
实验充分度: ⭐⭐⭐⭐⭐ 6个模型×6个数据集×多维度消融+ICL验证，非常全面
写作质量: ⭐⭐⭐⭐⭐ 逻辑链清晰（现象→归因→消融→验证），图表精美
价值: ⭐⭐⭐⭐ 对推理模型的可靠性评估和部署有直接指导意义

Reasoning Models Better Express Their Confidence¶

一句话总结¶

研究背景与动机¶

方法详解¶

实验设计¶

置信度提取¶

校准评估指标¶

CoT 展开分析¶

慢思考行为分析¶

非推理模型 + 慢思考 ICL¶

实验关键数据¶

主实验: 推理 vs 非推理模型校准¶

各指标典型差异¶

CoT 展开趋势¶

慢思考消融¶

非推理模型 + 慢思考 ICL¶

评分¶

亮点¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶