CER: Confidence Enhanced Reasoning in LLMs¶

会议: ACL 2025
arXiv: 2502.14634
代码: https://github.com/sharif-ml-lab/CER
领域: LLM 推理
关键词: 不确定性推理, 置信度聚合, 多步推理, 自一致性改进, 关键token

一句话总结¶

提出置信度增强推理框架 CER——在 CoT 推理的每个中间步骤中量化关键 token（数学任务的数值/开放域的专有名词）的置信度，用步间置信度乘积评估整条推理链的可靠性，用置信度加权聚合替代简单多数投票，在数学和开放域任务上比 self-consistency 分别提升最高 7.4% 和 5.8%。

研究背景与动机¶

领域现状：Self-consistency (SC) 是提升 LLM 推理准确率的主要方法——生成多条推理链后通过多数投票选答案。但 SC 给予所有推理链相同权重，不考虑各链的可靠性。
现有痛点：(a) 当多数链收敛到错误答案时 SC 失效——投票无法纠正系统性错误；(b) 不同推理链的质量差异很大但 SC 不区分——一条高质量链和一条低质量链权重相同；(c) 缺乏在推理过程中量化不确定性的轻量级方法。
核心矛盾：推理链的某些步骤对最终答案特别关键（如关键计算步骤的数值），但现有方法不区分不同步骤/token 的重要性。
本文要解决什么？ 在多步推理中识别关键决策点，量化这些点的置信度，用置信度加权替代多数投票。
切入角度：利用 LLM 自身的 token 概率来估计中间答案的置信度——关键 token（数值或实体名）的概率反映了模型的确信程度。
核心idea一句话：关键token的概率→步骤置信度→推理链可靠性→加权投票。

方法详解¶

整体框架¶

CER 包含三个组件：(1) 关键 token 识别——在每个推理步骤中识别关键 token（数学的数值、开放域的专有名词）；(2) 步骤-链置信度计算——用关键 token 的概率计算每步置信度，用步间聚合函数（如乘积）得到整条链的置信度；(3) 置信度加权聚合——用链级置信度作为权重，加权投票选出最终答案。

关键设计¶

关键 Token 识别与置信度计算:
做什么：在中间推理步骤中找到"决定性 token"并估计其置信度
核心思路：
- 数学任务：识别每步产生的数值结果（如计算中间值 "= 125"），取数值 token 的概率均值
- 开放域任务：识别每步出现的专有名词/实体（如 "Albert Einstein"），取实体 token 的概率均值
设计动机：这些关键 token 的正确性决定了推理链的最终正确性——如果中间计算结果的置信度低，整条链可能不可靠
步间聚合函数（Step-wise Aggregation）:
做什么：将各步骤的置信度聚合为整条链的置信度
核心思路：\(\text{Chain Confidence} = f(c_1, c_2, ..., c_n)\)，其中 \(f\) 可以是乘积（最严格——任何一步低置信度都拉低整体）、最小值、均值等
最佳选择：乘积——因为推理链上一步的错误会传播到所有后续步骤
设计动机：多步推理的错误传播特性——乘积天然建模了"一步错，步步错"
置信度加权聚合（Path-wise Aggregation）:
做什么：用链级置信度加权投票替代简单多数投票
核心思路：\(\text{Final Answer} = \arg\max_a \sum_{\text{chain}_i \text{ gives } a} w_i\)，其中 \(w_i\) 为链 \(i\) 的置信度
vs Self-Consistency：SC 中 \(w_i = 1\)（等权）；CER 中 \(w_i\) 反映推理链质量
设计动机：高置信度的推理链应该对最终答案有更大影响——一条"确定"的正确链应该胜过两条"不确定"的错误链

损失函数 / 训练策略¶

无需训练——直接利用 LLM 的 token 概率
仅需 white-box 访问（获取 token 概率）
适用于任何支持概率输出的 LLM

实验关键数据¶

主实验¶

方法	GSM8K	MATH	AQuA	TriviaQA	NQ
CoT (baseline)	基线	基线	基线	基线	基线
Self-Consistency	+3-5%	+2-4%	+2-3%	+1-3%	+1-2%
CER	+7-12%	+5-8%	+4-7%	+3-7%	+2-6%
CER vs SC 额外提升	+2-7.4%	+2-5%	+1-4%	+2-5.8%	+1-4%

消融实验¶

聚合函数	效果	说明
乘积（推荐）	最佳	正确建模错误传播
最小值	次优	过于保守
均值	中	不够敏感
等权（=SC）	基线	不区分链质量

关键发现¶

在所有五个数据集和四个 LLM 上置信度加权一致优于等权投票——验证了区分推理链质量的价值
数学任务改进更大（最高 7.4%）——因为数值 token 的置信度是推理正确性的strong signal
乘积作为步间聚合函数最有效——与多步推理的错误传播模型一致
甚至在小模型（7B）上也有显著提升——说明方法不依赖模型规模
计算开销极小——仅需在 SC 基础上读取 token 概率并做简单运算

亮点与洞察¶

"不是所有推理链都等价"的直觉被优雅地操作化了——用 token 概率量化置信度，用加权投票替代简单投票。
关键 token 识别是方法的核心——不是所有 token 的概率都有信息量，只有"决定性 token"（数值/实体）的概率才反映推理质量。
乘积聚合建模错误传播是合理的归纳偏差——多步推理确实是"一步错步步错"。
方法极其轻量——无需训练、无需额外模型调用，只需读取已有的概率。
可与其他推理增强方法（如 ToT、MCTS）正交结合——为它们的候选选择提供更好的评估信号。

局限性 / 可改进方向¶

需要 white-box 访问（token 概率）——black-box API（如 GPT-4）不提供
关键 token 的识别依赖简单规则（数值/实体）——更复杂的推理可能有其他类型的关键 token
当所有链的置信度都很高但答案错误时（系统性过自信）方法无效
仅在选择题和短答案任务上验证——开放式生成场景效果未知

评分¶

新颖性: ⭐⭐⭐⭐ 关键token置信度+加权投票的组合简洁有效
实验充分度: ⭐⭐⭐⭐⭐ 5数据集×4模型，各种聚合函数消融详尽
写作质量: ⭐⭐⭐⭐ 方法描述清晰，Figure 1 的示例直观
价值: ⭐⭐⭐⭐ 轻量级推理增强，可立即应用