CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought¶

会议: ACL 2025
arXiv: 2502.17214
代码: https://github.com/ZBox1005/CoT-UQ (有)
领域: LLM推理
关键词: 不确定性量化, Chain-of-Thought, 关键词提取, 置信度校准, 过度自信

一句话总结¶

针对 LLM 在推理任务中过度自信的问题，提出 CoT-UQ 框架，将 CoT 推理步骤中的关键词提取和重要性评分整合到不确定性量化过程中，在逻辑和数学推理任务上 AUROC 平均提升 5.9%。

研究背景与动机¶

领域现状：LLM 虽然推理能力强大，但难以准确量化其生成回答的不确定性。现有 UQ 方法主要分两类：(a) 基于 token 概率聚合（Aggregated Probabilities, AP）；(b) 自我评估（Self-Evaluation, SE），如 P(True)。
现有痛点：(a) 大多数 UQ 方法是 prompt-wise 而非 response-wise 的，需要对同一问题采样多次回答，计算成本高；(b) LLM 存在严重的过度自信问题，尤其是使用 CoT 推理后，模型对错误答案的置信度反而更高；(c) AP 方法对所有 token 一视同仁，冗余 token 会干扰不确定性估计。
核心矛盾：CoT 推理虽然提升了回答准确率，但同时导致模型对自己的输出更加"确信"（因为推理链让答案看起来更合理），这使得 UQ 更加困难。
本文要解决什么？ 如何利用 LLM 的推理步骤本身来改善不确定性估计，而非简单地看最终答案的概率？
切入角度：推理链中的关键词携带了最有意义的信息，不同关键词对最终答案的贡献程度不同；通过提取和加权这些关键信息，可以得到更校准的置信度估计。
核心 idea 一句话：从 CoT 推理步骤中提取关键词并评估其重要性，用加权关键词概率替代全 token 概率来估计不确定性。

方法详解¶

整体框架¶

CoT-UQ 是一个两阶段四步骤的 response-wise UQ 框架。输入是问题和 LLM 生成的带 CoT 推理的回答，输出是一个校准后的置信度分数。第一阶段（步骤 1-3）从推理过程中提取和评价关键信息；第二阶段（步骤 4）将这些信息整合到现有 UQ 策略中。

关键设计¶

步骤 1 - 推理提取 (Reasoning Extraction):
做什么：引导 LLM 生成结构化的逐步推理
核心思路：在 prompt 前添加 "Let's think step by step. Step 1:" 前缀，确保输出为多步推理 \(s_{1 \sim k} = s_1, ..., s_k\) 加最终答案 \(a\)
设计动机：结构化输出便于后续逐步提取关键词
步骤 2 - 关键词提取 (Keywords Extraction):
做什么：从每个推理步骤中提取关键词
核心思路：利用 LLM 自身的信息提取能力，从每步 \(s_i\) 中提取 \(n_i\) 个关键词，构建关键词集合 \(\mathcal{K} = \bigcup_{i=1}^{k} \{w_j^i\}_{j=1}^{n_i}\)
设计动机：关键词代表推理步骤中最有意义的部分，去除冗余 token 的干扰。先前工作对所有 token 求平均/最小值的方式会引入大量无关 token，影响 UQ 准确性
步骤 3 - 重要性评分 (Importance Scoring):
做什么：让 LLM 评估每个关键词对最终答案的重要程度
核心思路：在 few-shot 设置下，给 LLM 提供完整上下文（问题、推理步骤、答案、关键词），让其对每个关键词打 1-10 分。更新后的关键词集合为 \(\mathcal{K} = \bigcup_{i=1}^{k} \{(w_j^i, t_j^i)\}_{j=1}^{n_i}\)
设计动机：不同关键词对答案正确性的贡献不同——直接相关的数值或实体更重要，辅助描述性词汇重要性低
步骤 4 - 推理增强的 UQ 策略:
增强 AP 策略：用关键词概率的加权平均替代全 token 概率聚合。关键词 \(w\) 的概率通过 token 级聚合得到 \(p(\hat{w}) = \text{Aggr}_{m=1}^{l}(\mathbb{P}(w_m | p, w_1, ..., w_{m-1}))\)，最终置信度为重要性加权平均 \(c = \frac{\sum_{i,j} t_j^i \cdot p(\hat{w_j^i})}{\sum_{i,j} t_j^i}\)
增强 SE 策略：提出 4 种方式将推理信息注入自评估 prompt——ALLSteps（加入全部推理步骤）、ALLKeywords（加入全部关键词）、KEYStep（只加入重要性最高的步骤 \(s^* = \arg\max_i \frac{1}{n_i}\sum_j t_j^i\)）、KEYKeywords（只加入重要性超过阈值 \(\tau\) 的关键词 \(\mathcal{K}^* = \{(w,t) | t \geq \tau\}\)）
设计动机：AP 增强通过聚焦关键 token 减少噪声；SE 增强通过提供额外推理上下文帮助模型自我校正

损失函数 / 训练策略¶

纯推理时方法，无需额外训练或微调
所有步骤都通过 prompting 在原始 LLM 上完成

实验关键数据¶

主实验（Llama 3.1-8B, AUROC ↑）¶

方法	HotpotQA	2WikiMHQA	GSM8K	SVAMP	ASDiv
Probas-min	58.34	56.81	54.95	54.79	58.69
+ CoT-UQ	64.37	70.02	63.09	60.49	64.84
TOKENSAR	53.57	56.92	54.46	55.01	58.71
+ CoT-UQ	61.07	65.38	65.10	62.11	66.91
P(True)	62.39	53.56	48.15	51.58	47.23
+ CoT-UQ	63.10	57.77	52.60	60.00	53.20

CoT-UQ 在 Probas-min 上最高提升 16.8%（TOKENSAR + CoT-UQ 在 2WikiMHQA 上 56.92→65.38）。

消融实验¶

配置	AUROC 影响
完整 CoT-UQ (AP-Probas-min)	基准
w/o 重要性评分	下降约 2-4%，验证了加权的必要性
逻辑推理用 KEYKeywords	最优（关键词信息量大）
数学推理用 ALLSteps/KEYStep	最优（数学关键词过于简单如数字）
随机 mask 代替关键词	性能下降

关键发现¶

AP 策略受益更大：CoT-UQ 对 AP 的平均提升（+10.3%）远高于对 SE（+4.4%），因为 AP 直接从概率层面过滤了噪声
逻辑 vs 数学推理的最佳策略不同：逻辑推理适合关键词级策略（KEYKeywords），因为推理步骤冗余信息多但关键词保留了逻辑关系；数学推理适合步骤级策略（ALLSteps/KEYStep），因为数学关键词往往是单个数字，上下文不够
重要性评分一致有效：去除重要性加权后性能均下降，说明不同关键词对 UQ 的贡献确实不同

亮点与洞察¶

"用推理来评估推理"的思路简洁有效：不修改模型、不需要采样多条回答、不需要训练，纯 prompting 解决。这种 inference-time 不确定性量化的范式可以迁移到任何支持 logit 输出的 LLM
关键词提取作为信息压缩手段：用关键词替代全部 token 做概率聚合，既去噪又聚焦，是 UQ 领域的一个巧妙 trick
任务类型决定最佳信息粒度：逻辑推理用关键词级、数学推理用步骤级，这一发现对其他 CoT 相关方法也有参考价值

局限性 / 可改进方向¶

需要访问 token logits：不适用于纯黑盒 API（虽然主流商业 API 已支持 logprobs）
仅限封闭式 QA：需要有明确正确答案来评估，开放式问答未验证
额外推理开销：关键词提取和重要性评分需要额外 LLM 调用（2-3 次），增加了推理成本
模型规模有限：只在 8B 和 13B 模型上验证，更大模型是否仍需这种方法存疑
可改进：(a) 可以训练轻量级关键词提取器替代 LLM 自提取以降低开销；(b) 可以扩展到代码生成等任务的 UQ

评分¶

新颖性: ⭐⭐⭐⭐ 将推理过程作为 UQ 信号的思路新颖，但实现主要基于 prompting 工程
实验充分度: ⭐⭐⭐⭐ 5 个数据集、2 个模型、详细消融和 case study，但缺少更大模型的验证
写作质量: ⭐⭐⭐⭐ 框架描述清晰，图示直观
价值: ⭐⭐⭐⭐ 对 LLM 可靠性部署有实际意义，方法可直接用于生产环境的置信度过滤