跳转至

笔记6:Self-Evaluating LLMs - 多步任务的步级置信度估计

会议: NeurIPS 2025
arXiv: 2505.17373
代码: 无(研究型)
领域: LLM可靠性, 多步推理, 置信度校准
关键词: 故障检测, 步级评估, 自教学, 多跳推理, 置信度估计

一句话总结

本文扩展置信度估计到多步任务,证明步级评估相比整体评估能更有效地检测推理失败,相对整体评估在CoQA上AUC-ROC提升15%,为多步推理系统的可信部署提供实用框架。

研究背景与动机

  1. 单步研究饱和:存在大量置信度估计工作,但几乎全部聚焦单次输出,多步推理的失败检测未充分研究
  2. 多步推理复杂性:推理链可任意长,错误可能在任何步产生,后续步会放大早期错误,现有单步方法直接应用失败
  3. 实证缺口:直接应用self-certainty到CoQA获得仅0.523 AUC-ROC,而步级简单扩展即达0.849(+62%),差异巨大
  4. 关键问题:多步任务的置信度估计应在何粒度执行?步后 vs 整体评估孰优?

方法详解

整体框架

两种评估粒度的系统对比:

1. 响应级评估(整体) $\(p_{whole} = \mathcal{S}_{whole}(R_{[1:n]}|C,Q_{[1:n]})\)$ 单一分数评价整个推理链逻辑一致性。

2. 步级评估(细粒度) $\(p_i = \mathcal{F}_{step}(R_i|C,Q_{[1:i]},R_{[1:i-1]})\)$ 对每步\(i\)单独打分,最终置信 \(p = \min(\{p_i\}_{i=1}^n)\)(任一步失败即失败)。

关键设计

五类置信度估计方法的评估

方法类别 白盒/黑盒 关键思想 模型要求
Self-Verbalized 黑盒 LLM自陈置信 任何LLM
LLM评价器 黑盒 GPT-4判断/Llama评估 额外评估器
回归模型 白盒 隐层激活→置信分数 访问隐层+微调
偏好奖励模型 白盒 二分类训练 PRM数据与微调
Self-Certainty 白盒 log-prob校准 Token级概率

训练细节 - 教师强制: $\(\mathcal{F}(R_i|C,Q_{[1:i]},\hat{R}_{[1:i-1]}) \rightarrow \mathbb{I}\{R_i≠\hat{R}_i\}\)$ 使用黄金历史\(\hat{R}\)条件生成而非模型输出,降低误差传播。

推理时不可获得黄金参考,完全依赖模型生成历史。

实验关键数据

GSM8K(数学推理) - AUC-ROC & FPR@0.9回召

方法 粒度 AUC FPR@0.9rec 关键发现
Self-Certainty 整体 0.649 0.812 较弱
Self-Certainty 步级 0.849 0.374 +62%相对提升
回归模型 整体 0.843 0.441 强基线
回归模型 步级 0.907 0.314 +7.6%进一步改进
GPT-4.1-mini 整体 0.880 1.0(mr:0.81) 闭源强
GPT-4.1-mini 步级 0.670 1.0(mr:0.48) 反向滑落

CoQA(对话QA) - 性能对比

方法 粒度 AUC FPR@0.9rec 相对整体改变
Self-Certainty 整体 0.523 0.950 基准
Self-Certainty 步级 0.849 0.374 +62.1%
Llama-3.2-11B 整体 0.586 1.0(mr:0.52) 基准
Llama-3.2-11B 步级 0.676 0.81 +15.3%改进
激活回归 整体 0.750 0.647 +28%
激活回归 步级 0.919 0.169 +22.5%绝对

关键发现

  1. 任务依赖性:CoQA上步级全面优于整体(4/5方法恢复或改进),GSM8K上差异更小且GPT-4.1反向,任务特性关键
  2. 数学的虚假推理:GSM8K中60/879(6.8%)样本错误推理却答案正确,步级评估能检测此类缺陷,整体评估遗漏
  3. 激活最鲁棒:回归模型基于隐层激活(不受工具交互污染logits)在两任务表现最佳,且步级优势显著
  4. 真实场景验证:临床数据(医疗记录问答)也表现步级优势,AUC=0.940/FPR=0.152,说明方法通用有效

亮点与洞察

  1. 粒度tradeoff深入:首次系统对比步级与整体,揭示task-method互作的复杂性
  2. 实用框架:提供可行的步级评估部署方案,无需模型重建
  3. 失败模式剖析:识别虚假推理(错误步→正确答):39.3%相对故障检测率优势(步级)
  4. 医疗验证:真实临床数据验证,强化医疗等高危场景的应用价值

局限性

  1. 步级标注成本(需黄金答案每步)限制数据规模,不同域迁移需重标
  2. 文本生成不同于分类,步级边界定义仍有歧义(何为一"步"?)
  3. PRM基线无法在GSM8K步级应用(多有效路径),方法限制未深入讨论

相关工作

  • 置信度估计与校准(log-prob、激活、偏好学习)
  • 多步推理与RAG的可信性评估
  • 错误检测在对话系统与数学推理中的应用

评分

⭐⭐⭐⭐⭐