跳转至

Reasoning Models Better Express Their Confidence

会议: NeurIPS 2025
arXiv: 2505.14489
代码: GitHub (有)
领域: LLM推理
关键词: confidence calibration, reasoning models, chain-of-thought, slow thinking, verbalized confidence, ECE, Brier Score

一句话总结

系统性证明推理模型(extended CoT)比非推理模型具有显著更优的置信度校准能力,并揭示"慢思考"行为(探索替代方案、回溯、验证)是校准提升的根本来源。

研究背景与动机

  1. 领域现状: LLM 越来越多地被用于高风险决策场景,模型能否准确表达自身的不确定性(即置信度校准)直接关系到可信赖 AI 的部署。
  2. 现有痛点: 前人工作发现 LLM 的语言化置信度存在过度自信问题,但这些研究大多针对传统(非推理)模型,尚未系统性考察推理模型的校准表现。
  3. 核心观察: 推理模型在生成答案前会进行显式的 extended chain-of-thought,包含探索、回溯、验证等"慢思考"过程——这与人类在不确定时"多想想再给答案"的直觉一致。
  4. 本文要解决什么? (1) 推理模型是否比非推理模型校准更好?(2) 校准提升的来源是什么?是模型能力差异还是慢思考过程本身?
  5. 切入角度: 对比 6 组推理 vs 非推理模型在多个知识问答 benchmark 上的校准表现,并通过 CoT 展开分析和消融实验定位校准增益来源。
  6. 核心 idea 一句话: 推理模型的"慢思考"过程——探索替代方案、回溯修正、自我验证——天然地让模型更准确地感知自身的不确定性。

方法详解

实验设计

  • 推理模型 (6个): R1-Distill-Qwen-32B, QwQ-32B-Preview, OR1-Preview, GLM-Z1-Air-0414, EXAONE-Deep-32B, Qwen3-235B-A22B-Thinking
  • 非推理对照组: 每个推理模型对应一个同系列/同规模的非推理模型(如 Qwen2.5-32B-Instruct 对照 R1-Distill-Qwen-32B)
  • 数据集 (6个): TriviaQA, NonambigQA, MMLU-Pro-Math, MMLU-Pro-NonMath, SuperGPQA-Math, SuperGPQA-NonMath

置信度提取

  • 采用语言化置信度 (verbalized confidence): 将置信度分为 10 个区间("Almost no chance 0-0.1" 到 "Almost certain 0.9-1.0")
  • 每个模型在回答后被要求从 10 个选项中选择一个作为置信度表达
  • 取每个区间的中间值作为数值置信度(如 0-0.1 → 0.05)

校准评估指标

  1. ECE (Expected Calibration Error): 衡量预测置信度与实际准确率之间的差距,越低越好
  2. Brier Score: 综合衡量校准和分辨能力,越低越好
  3. AUROC: 衡量模型区分正确/错误回答的能力,越高越好

CoT 展开分析

  • 将推理过程按 token 位置等分为多个阶段
  • 在每个阶段截断 CoT 后要求模型给出置信度
  • 观察校准指标随 CoT 展开的变化趋势

慢思考行为分析

定义三种关键的"慢思考"行为: 1. 探索替代方案 (Exploring Alternatives): 考虑多种可能的答案或解法 2. 回溯 (Backtracking): 推翻先前的推理步骤并修正 3. 验证 (Verification): 对自己的答案进行检查确认

通过消融实验,将 CoT 中包含这些行为的片段移除,观察校准变化。

非推理模型 + 慢思考 ICL

  • 通过 in-context learning 向非推理模型展示包含慢思考行为的推理示例
  • 测试非推理模型在被引导进行慢思考后的校准改善情况

实验关键数据

主实验: 推理 vs 非推理模型校准

  • 推理模型在 33/36 个设置中(6 模型 × 6 数据集)的校准指标优于非推理对照组
  • 所有三个指标(ECE↓、Brier Score↓、AUROC↑)上推理模型均表现更佳

各指标典型差异

指标 推理模型(平均) 非推理模型(平均) 改善
ECE ↓ 更低 更高 推理模型显著更优
Brier Score ↓ 更低 更高 推理模型显著更优
AUROC ↑ 更高 更低 推理模型显著更优

CoT 展开趋势

  • 推理模型: 校准随 CoT 展开稳步改善 (p<0.05),ECE 和 Brier Score 持续下降,AUROC 持续上升
  • 非推理模型: CoT 展开过程中无此趋势,校准指标基本不变

慢思考消融

  • 移除 CoT 中的慢思考结构(探索替代、回溯、验证)后,推理模型的校准显著退化
  • 证明校准增益确实来源于慢思考过程而非模型的其他能力差异

非推理模型 + 慢思考 ICL

  • 非推理模型在被引导进行慢思考后,校准也获得提升
  • 进一步佐证"慢思考"本身是校准改善的因果性来源

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次系统性地将推理模型的 extended CoT 与置信度校准联系起来,发现慢思考是校准的因果来源
  • 方法强度: ⭐⭐⭐⭐ — 6 组对照、6 个数据集、36 个设置的全面比较;CoT 展开分析和消融实验设计严谨
  • 实用性: ⭐⭐⭐⭐ — 对 LLM 在高风险决策中的部署有直接指导意义;ICL 引导慢思考的方法可立即应用于非推理模型
  • 整体: ⭐⭐⭐⭐

亮点

  1. 33/36 的压倒性优势: 推理模型几乎在所有设置下都优于非推理模型,结论高度鲁棒
  2. 因果性分析: 不仅展示相关性,还通过消融(移除慢思考)和干预(ICL 注入慢思考)两个方向建立因果关系
  3. CoT 展开分析: 揭示校准随推理过程"逐步改善"的现象,提供了理解推理模型内部机制的新视角
  4. 可迁移发现: 非推理模型也能通过引导慢思考获得校准提升,具有广泛的应用价值
  5. 直觉一致性: "想得越多,对自己的判断越准确"——这一发现与人类认知直觉高度吻合

局限性 / 可改进方向

  1. 仅限语言化置信度: 未考察 token-level logit 置信度(推理模型 API 通常不公开 logits),可能遗漏互补信号
  2. 模型规模限制: 主要使用 32B 级别开源模型,未包含 GPT-o1/o3、Claude 等闭源推理模型的对比
  3. 任务类型单一: 集中在知识型 QA,未覆盖推理密集型任务(数学证明、代码生成等)的校准表现
  4. 慢思考行为分类粗粒度: 仅分为三类(探索、回溯、验证),更细粒度的行为分类可能揭示更多校准机制
  5. ICL 引导的规模化: 通过 ICL 在非推理模型中注入慢思考的效果可能受示例选择和 prompt 设计影响
  6. 缺乏理论解释: 为何慢思考能改善校准?缺乏数学/信息论层面的理论分析

相关工作与启发

  • vs Probing-based置信度估计(Kadavath等): 需要模型内部隐状态,适用范围受限;本文方法基于语言化输出,完全黑盒兼容
  • vs 一致性采样(Self-CheckGPT等): 多次采样成本高(N倍推理开销),本文单次推理即可获得更好校准
  • vs 同期工作(Zhang等 reasoning probes): 他们从隐状态训练probe优化CoT生成,本文聚焦分析慢思考为何天然改善校准,两者互补

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统揭示推理模型在置信度校准上的优势,并归因于慢思考机制
  • 实验充分度: ⭐⭐⭐⭐⭐ 6个模型×6个数据集×多维度消融+ICL验证,非常全面
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑链清晰(现象→归因→消融→验证),图表精美
  • 价值: ⭐⭐⭐⭐ 对推理模型的可靠性评估和部署有直接指导意义