跳转至

CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought

会议: ACL 2025
arXiv: 2502.17214
代码: https://github.com/ZBox1005/CoT-UQ (有)
领域: LLM推理
关键词: 不确定性量化, Chain-of-Thought, 关键词提取, 置信度校准, 过度自信

一句话总结

针对 LLM 在推理任务中过度自信的问题,提出 CoT-UQ 框架,将 CoT 推理步骤中的关键词提取和重要性评分整合到不确定性量化过程中,在逻辑和数学推理任务上 AUROC 平均提升 5.9%。

研究背景与动机

  1. 领域现状:LLM 虽然推理能力强大,但难以准确量化其生成回答的不确定性。现有 UQ 方法主要分两类:(a) 基于 token 概率聚合(Aggregated Probabilities, AP);(b) 自我评估(Self-Evaluation, SE),如 P(True)。
  2. 现有痛点:(a) 大多数 UQ 方法是 prompt-wise 而非 response-wise 的,需要对同一问题采样多次回答,计算成本高;(b) LLM 存在严重的过度自信问题,尤其是使用 CoT 推理后,模型对错误答案的置信度反而更高;(c) AP 方法对所有 token 一视同仁,冗余 token 会干扰不确定性估计。
  3. 核心矛盾:CoT 推理虽然提升了回答准确率,但同时导致模型对自己的输出更加"确信"(因为推理链让答案看起来更合理),这使得 UQ 更加困难。
  4. 本文要解决什么? 如何利用 LLM 的推理步骤本身来改善不确定性估计,而非简单地看最终答案的概率?
  5. 切入角度:推理链中的关键词携带了最有意义的信息,不同关键词对最终答案的贡献程度不同;通过提取和加权这些关键信息,可以得到更校准的置信度估计。
  6. 核心 idea 一句话:从 CoT 推理步骤中提取关键词并评估其重要性,用加权关键词概率替代全 token 概率来估计不确定性。

方法详解

整体框架

CoT-UQ 是一个两阶段四步骤的 response-wise UQ 框架。输入是问题和 LLM 生成的带 CoT 推理的回答,输出是一个校准后的置信度分数。第一阶段(步骤 1-3)从推理过程中提取和评价关键信息;第二阶段(步骤 4)将这些信息整合到现有 UQ 策略中。

关键设计

  1. 步骤 1 - 推理提取 (Reasoning Extraction):
  2. 做什么:引导 LLM 生成结构化的逐步推理
  3. 核心思路:在 prompt 前添加 "Let's think step by step. Step 1:" 前缀,确保输出为多步推理 \(s_{1 \sim k} = s_1, ..., s_k\) 加最终答案 \(a\)
  4. 设计动机:结构化输出便于后续逐步提取关键词

  5. 步骤 2 - 关键词提取 (Keywords Extraction):

  6. 做什么:从每个推理步骤中提取关键词
  7. 核心思路:利用 LLM 自身的信息提取能力,从每步 \(s_i\) 中提取 \(n_i\) 个关键词,构建关键词集合 \(\mathcal{K} = \bigcup_{i=1}^{k} \{w_j^i\}_{j=1}^{n_i}\)
  8. 设计动机:关键词代表推理步骤中最有意义的部分,去除冗余 token 的干扰。先前工作对所有 token 求平均/最小值的方式会引入大量无关 token,影响 UQ 准确性

  9. 步骤 3 - 重要性评分 (Importance Scoring):

  10. 做什么:让 LLM 评估每个关键词对最终答案的重要程度
  11. 核心思路:在 few-shot 设置下,给 LLM 提供完整上下文(问题、推理步骤、答案、关键词),让其对每个关键词打 1-10 分。更新后的关键词集合为 \(\mathcal{K} = \bigcup_{i=1}^{k} \{(w_j^i, t_j^i)\}_{j=1}^{n_i}\)
  12. 设计动机:不同关键词对答案正确性的贡献不同——直接相关的数值或实体更重要,辅助描述性词汇重要性低

  13. 步骤 4 - 推理增强的 UQ 策略:

  14. 增强 AP 策略:用关键词概率的加权平均替代全 token 概率聚合。关键词 \(w\) 的概率通过 token 级聚合得到 \(p(\hat{w}) = \text{Aggr}_{m=1}^{l}(\mathbb{P}(w_m | p, w_1, ..., w_{m-1}))\),最终置信度为重要性加权平均 \(c = \frac{\sum_{i,j} t_j^i \cdot p(\hat{w_j^i})}{\sum_{i,j} t_j^i}\)
  15. 增强 SE 策略:提出 4 种方式将推理信息注入自评估 prompt——ALLSteps(加入全部推理步骤)、ALLKeywords(加入全部关键词)、KEYStep(只加入重要性最高的步骤 \(s^* = \arg\max_i \frac{1}{n_i}\sum_j t_j^i\))、KEYKeywords(只加入重要性超过阈值 \(\tau\) 的关键词 \(\mathcal{K}^* = \{(w,t) | t \geq \tau\}\)
  16. 设计动机:AP 增强通过聚焦关键 token 减少噪声;SE 增强通过提供额外推理上下文帮助模型自我校正

损失函数 / 训练策略

  • 纯推理时方法,无需额外训练或微调
  • 所有步骤都通过 prompting 在原始 LLM 上完成

实验关键数据

主实验(Llama 3.1-8B, AUROC ↑)

方法 HotpotQA 2WikiMHQA GSM8K SVAMP ASDiv
Probas-min 58.34 56.81 54.95 54.79 58.69
+ CoT-UQ 64.37 70.02 63.09 60.49 64.84
TOKENSAR 53.57 56.92 54.46 55.01 58.71
+ CoT-UQ 61.07 65.38 65.10 62.11 66.91
P(True) 62.39 53.56 48.15 51.58 47.23
+ CoT-UQ 63.10 57.77 52.60 60.00 53.20

CoT-UQ 在 Probas-min 上最高提升 16.8%(TOKENSAR + CoT-UQ 在 2WikiMHQA 上 56.92→65.38)。

消融实验

配置 AUROC 影响
完整 CoT-UQ (AP-Probas-min) 基准
w/o 重要性评分 下降约 2-4%,验证了加权的必要性
逻辑推理用 KEYKeywords 最优(关键词信息量大)
数学推理用 ALLSteps/KEYStep 最优(数学关键词过于简单如数字)
随机 mask 代替关键词 性能下降

关键发现

  • AP 策略受益更大:CoT-UQ 对 AP 的平均提升(+10.3%)远高于对 SE(+4.4%),因为 AP 直接从概率层面过滤了噪声
  • 逻辑 vs 数学推理的最佳策略不同:逻辑推理适合关键词级策略(KEYKeywords),因为推理步骤冗余信息多但关键词保留了逻辑关系;数学推理适合步骤级策略(ALLSteps/KEYStep),因为数学关键词往往是单个数字,上下文不够
  • 重要性评分一致有效:去除重要性加权后性能均下降,说明不同关键词对 UQ 的贡献确实不同

亮点与洞察

  • "用推理来评估推理"的思路简洁有效:不修改模型、不需要采样多条回答、不需要训练,纯 prompting 解决。这种 inference-time 不确定性量化的范式可以迁移到任何支持 logit 输出的 LLM
  • 关键词提取作为信息压缩手段:用关键词替代全部 token 做概率聚合,既去噪又聚焦,是 UQ 领域的一个巧妙 trick
  • 任务类型决定最佳信息粒度:逻辑推理用关键词级、数学推理用步骤级,这一发现对其他 CoT 相关方法也有参考价值

局限性 / 可改进方向

  • 需要访问 token logits:不适用于纯黑盒 API(虽然主流商业 API 已支持 logprobs)
  • 仅限封闭式 QA:需要有明确正确答案来评估,开放式问答未验证
  • 额外推理开销:关键词提取和重要性评分需要额外 LLM 调用(2-3 次),增加了推理成本
  • 模型规模有限:只在 8B 和 13B 模型上验证,更大模型是否仍需这种方法存疑
  • 可改进:(a) 可以训练轻量级关键词提取器替代 LLM 自提取以降低开销;(b) 可以扩展到代码生成等任务的 UQ

相关工作与启发

  • vs Semantic Entropy (Kuhn et al., 2023): Semantic Entropy 需要多次采样(prompt-wise),CoT-UQ 单次推理即可(response-wise),计算成本大幅降低
  • vs TOKENSAR (Duan et al., 2024): TOKENSAR 评估答案 token 的相关性并加权,但在短答案场景(如数学题)效果有限;CoT-UQ 聚焦推理过程中的关键词,信息更丰富
  • vs P(True) (Kadavath et al., 2022): P(True) 直接问模型答案是否正确,受过度自信影响大;CoT-UQ 通过提供推理上下文,帮助模型做更 informed 的自评估

评分

  • 新颖性: ⭐⭐⭐⭐ 将推理过程作为 UQ 信号的思路新颖,但实现主要基于 prompting 工程
  • 实验充分度: ⭐⭐⭐⭐ 5 个数据集、2 个模型、详细消融和 case study,但缺少更大模型的验证
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,图示直观
  • 价值: ⭐⭐⭐⭐ 对 LLM 可靠性部署有实际意义,方法可直接用于生产环境的置信度过滤