笔记6：Self-Evaluating LLMs - 多步任务的步级置信度估计¶

会议: NeurIPS 2025
arXiv: 2505.17373
代码: 无(研究型)
领域: LLM可靠性, 多步推理, 置信度校准
关键词: 故障检测, 步级评估, 自教学, 多跳推理, 置信度估计

一句话总结¶

本文扩展置信度估计到多步任务，证明步级评估相比整体评估能更有效地检测推理失败，相对整体评估在CoQA上AUC-ROC提升15%，为多步推理系统的可信部署提供实用框架。

两种评估粒度的系统对比：

1. 响应级评估(整体) $$p_{whole} = \mathcal{S}_{whole}(R_{[1:n]}|C,Q_{[1:n]})$$ 单一分数评价整个推理链逻辑一致性。

2. 步级评估(细粒度) $$p_i = \mathcal{F}_{step}(R_i|C,Q_{[1:i]},R_{[1:i-1]})$$ 对每步$i$单独打分，最终置信 $p = \min(\{p_i\}_{i=1}^n)$(任一步失败即失败)。

五类置信度估计方法的评估：

方法类别	白盒/黑盒	关键思想	模型要求
Self-Verbalized	黑盒	LLM自陈置信	任何LLM
LLM评价器	黑盒	GPT-4判断/Llama评估	额外评估器
回归模型	白盒	隐层激活→置信分数	访问隐层+微调
偏好奖励模型	白盒	二分类训练	PRM数据与微调
Self-Certainty	白盒	log-prob校准	Token级概率

训练细节 - 教师强制： $$\mathcal{F}(R_i|C,Q_{[1:i]},\hat{R}_{[1:i-1]}) \rightarrow \mathbb{I}\{R_i≠\hat{R}_i\}$$ 使用黄金历史$\hat{R}$条件生成而非模型输出，降低误差传播。

推理时不可获得黄金参考，完全依赖模型生成历史。

方法	粒度	AUC	FPR@0.9rec	关键发现
Self-Certainty	整体	0.649	0.812	较弱
Self-Certainty	步级	0.849	0.374	+62%相对提升
回归模型	整体	0.843	0.441	强基线
回归模型	步级	0.907	0.314	+7.6%进一步改进
GPT-4.1-mini	整体	0.880	1.0(mr:0.81)	闭源强
GPT-4.1-mini	步级	0.670	1.0(mr:0.48)	反向滑落

方法	粒度	AUC	FPR@0.9rec	相对整体改变
Self-Certainty	整体	0.523	0.950	基准
Self-Certainty	步级	0.849	0.374	+62.1%
Llama-3.2-11B	整体	0.586	1.0(mr:0.52)	基准
Llama-3.2-11B	步级	0.676	0.81	+15.3%改进
激活回归	整体	0.750	0.647	+28%
激活回归	步级	0.919	0.169	+22.5%绝对

⭐⭐⭐⭐⭐