CER: Confidence Enhanced Reasoning in LLMs¶
会议: ACL 2025
arXiv: 2502.14634
代码: https://github.com/sharif-ml-lab/CER
领域: LLM 推理
关键词: 不确定性推理, 置信度聚合, 多步推理, 自一致性改进, 关键token
一句话总结¶
提出置信度增强推理框架 CER——在 CoT 推理的每个中间步骤中量化关键 token(数学任务的数值/开放域的专有名词)的置信度,用步间置信度乘积评估整条推理链的可靠性,用置信度加权聚合替代简单多数投票,在数学和开放域任务上比 self-consistency 分别提升最高 7.4% 和 5.8%。
研究背景与动机¶
- 领域现状:Self-consistency (SC) 是提升 LLM 推理准确率的主要方法——生成多条推理链后通过多数投票选答案。但 SC 给予所有推理链相同权重,不考虑各链的可靠性。
- 现有痛点:(a) 当多数链收敛到错误答案时 SC 失效——投票无法纠正系统性错误;(b) 不同推理链的质量差异很大但 SC 不区分——一条高质量链和一条低质量链权重相同;(c) 缺乏在推理过程中量化不确定性的轻量级方法。
- 核心矛盾:推理链的某些步骤对最终答案特别关键(如关键计算步骤的数值),但现有方法不区分不同步骤/token 的重要性。
- 本文要解决什么? 在多步推理中识别关键决策点,量化这些点的置信度,用置信度加权替代多数投票。
- 切入角度:利用 LLM 自身的 token 概率来估计中间答案的置信度——关键 token(数值或实体名)的概率反映了模型的确信程度。
- 核心idea一句话:关键token的概率→步骤置信度→推理链可靠性→加权投票。
方法详解¶
整体框架¶
CER 包含三个组件:(1) 关键 token 识别——在每个推理步骤中识别关键 token(数学的数值、开放域的专有名词);(2) 步骤-链置信度计算——用关键 token 的概率计算每步置信度,用步间聚合函数(如乘积)得到整条链的置信度;(3) 置信度加权聚合——用链级置信度作为权重,加权投票选出最终答案。
关键设计¶
- 关键 Token 识别与置信度计算:
- 做什么:在中间推理步骤中找到"决定性 token"并估计其置信度
- 核心思路:
- 数学任务:识别每步产生的数值结果(如计算中间值 "= 125"),取数值 token 的概率均值
- 开放域任务:识别每步出现的专有名词/实体(如 "Albert Einstein"),取实体 token 的概率均值
-
设计动机:这些关键 token 的正确性决定了推理链的最终正确性——如果中间计算结果的置信度低,整条链可能不可靠
-
步间聚合函数(Step-wise Aggregation):
- 做什么:将各步骤的置信度聚合为整条链的置信度
- 核心思路:\(\text{Chain Confidence} = f(c_1, c_2, ..., c_n)\),其中 \(f\) 可以是乘积(最严格——任何一步低置信度都拉低整体)、最小值、均值等
- 最佳选择:乘积——因为推理链上一步的错误会传播到所有后续步骤
-
设计动机:多步推理的错误传播特性——乘积天然建模了"一步错,步步错"
-
置信度加权聚合(Path-wise Aggregation):
- 做什么:用链级置信度加权投票替代简单多数投票
- 核心思路:\(\text{Final Answer} = \arg\max_a \sum_{\text{chain}_i \text{ gives } a} w_i\),其中 \(w_i\) 为链 \(i\) 的置信度
- vs Self-Consistency:SC 中 \(w_i = 1\)(等权);CER 中 \(w_i\) 反映推理链质量
- 设计动机:高置信度的推理链应该对最终答案有更大影响——一条"确定"的正确链应该胜过两条"不确定"的错误链
损失函数 / 训练策略¶
- 无需训练——直接利用 LLM 的 token 概率
- 仅需 white-box 访问(获取 token 概率)
- 适用于任何支持概率输出的 LLM
实验关键数据¶
主实验¶
| 方法 | GSM8K | MATH | AQuA | TriviaQA | NQ |
|---|---|---|---|---|---|
| CoT (baseline) | 基线 | 基线 | 基线 | 基线 | 基线 |
| Self-Consistency | +3-5% | +2-4% | +2-3% | +1-3% | +1-2% |
| CER | +7-12% | +5-8% | +4-7% | +3-7% | +2-6% |
| CER vs SC 额外提升 | +2-7.4% | +2-5% | +1-4% | +2-5.8% | +1-4% |
消融实验¶
| 聚合函数 | 效果 | 说明 |
|---|---|---|
| 乘积(推荐) | 最佳 | 正确建模错误传播 |
| 最小值 | 次优 | 过于保守 |
| 均值 | 中 | 不够敏感 |
| 等权(=SC) | 基线 | 不区分链质量 |
关键发现¶
- 在所有五个数据集和四个 LLM 上置信度加权一致优于等权投票——验证了区分推理链质量的价值
- 数学任务改进更大(最高 7.4%)——因为数值 token 的置信度是推理正确性的strong signal
- 乘积作为步间聚合函数最有效——与多步推理的错误传播模型一致
- 甚至在小模型(7B)上也有显著提升——说明方法不依赖模型规模
- 计算开销极小——仅需在 SC 基础上读取 token 概率并做简单运算
亮点与洞察¶
- "不是所有推理链都等价"的直觉被优雅地操作化了——用 token 概率量化置信度,用加权投票替代简单投票。
- 关键 token 识别是方法的核心——不是所有 token 的概率都有信息量,只有"决定性 token"(数值/实体)的概率才反映推理质量。
- 乘积聚合建模错误传播是合理的归纳偏差——多步推理确实是"一步错步步错"。
- 方法极其轻量——无需训练、无需额外模型调用,只需读取已有的概率。
- 可与其他推理增强方法(如 ToT、MCTS)正交结合——为它们的候选选择提供更好的评估信号。
局限性 / 可改进方向¶
- 需要 white-box 访问(token 概率)——black-box API(如 GPT-4)不提供
- 关键 token 的识别依赖简单规则(数值/实体)——更复杂的推理可能有其他类型的关键 token
- 当所有链的置信度都很高但答案错误时(系统性过自信)方法无效
- 仅在选择题和短答案任务上验证——开放式生成场景效果未知
相关工作与启发¶
- vs Self-Consistency: SC 等权投票;CER 用置信度加权投票——简单但有效的改进
- vs Semantic Entropy: SE 用语义聚类估计不确定性但不区分步骤;CER 在步骤级关键 token 上估计——更细粒度
- vs Disentangling Memory & Reasoning: 那篇分离"知道"和"推理";CER 量化"确定"和"不确定"——互补视角
- vs Calibration Confidence (ACL2025 generation): 那篇关注生成任务的置信度校准;CER 关注推理任务——类似思路不同应用
评分¶
- 新颖性: ⭐⭐⭐⭐ 关键token置信度+加权投票的组合简洁有效
- 实验充分度: ⭐⭐⭐⭐⭐ 5数据集×4模型,各种聚合函数消融详尽
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,Figure 1 的示例直观
- 价值: ⭐⭐⭐⭐ 轻量级推理增强,可立即应用