Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness¶

会议: ICML 2025
arXiv: 2405.18915
代码: BugMakerzzz/better_cot
领域: LLM推理
关键词: Chain-of-Thought, 推理有效性, 推理忠实性, 信息增益, 信息流, 归因分析

一句话总结¶

本文从有效性（effectiveness）和忠实性（faithfulness）两个维度系统分析了 CoT 的性能影响因素，发现问题难度、信息增益和信息流是影响 CoT 有效性的关键因子，而不忠实 CoT 的根因在于模型在预测答案时绕过 CoT 直接从问题中召回了正确信息，并据此提出 QUIRE 方法同时提升 CoT 的有效性和忠实性。

研究背景与动机¶

领域现状：CoT 技术让 LLM 在复杂推理任务上表现出色，尤其 DeepSeek-R1、o1 等推理模型通过 RL 扩展 CoT 过程甚至超越了人类在竞赛数学上的表现。
现有痛点：CoT 并非万能药——在某些任务上 CoT 不仅无效甚至有害（如常识推理），且存在不忠实问题（错误 CoT 仍能导致正确答案）。
评估工作的不足：
- 有效性方面：已有工作仅停留在"CoT 在含数学符号的任务上表现好"的表面结论，缺乏对底层影响因素的深入分析。
- 忠实性方面：已有工作主要设计各种方法判断 CoT 是否忠实，但缺乏对不忠实现象成因的解释。
本文切入角度：从信息论视角出发，通过信息增益（Information Gain）和信息流（Information Flow）等工具量化 CoT 在推理过程中的信息交互模式，不仅诊断问题，还提供了可操作的改进方案。
核心 idea：不忠实的 CoT 丢失了问题中的关键信息，但模型在预测答案时能从问题中"召回"这些丢失的信息——利用这一机制反向增强 CoT 生成，可同时改善有效性和忠实性。

方法详解¶

整体框架¶

本文分为分析（§3-§4）和应用（§5）两大部分： - §3 有效性分析：识别问题难度、信息增益、信息流三个影响 CoT 有效性的关键因子 - §4 忠实性分析：通过问题→CoT→答案的三方信息交互解释不忠实 CoT 的成因 - §5 QUIRE 方法：基于分析结论设计的算法，同时提升有效性和忠实性

有效性分析：三大关键因子¶

因子1：问题难度（Problem Difficulty）¶

难度量化方式：对每个问题采样 10 次无 CoT 回答，按 pass@1 率分为 5 个难度等级（pass@1 < 0.1 为最难的 level 5，> 0.8 为最简单的 level 1）
结论 Cl.1：CoT 在困难问题上更有效。在低难度问题上 CoT 提升很小甚至降低性能，但在高难度问题上显著提升准确率
任务差异的解释：数学推理数据集中高难度问题占比更多，常识推理中低难度问题占比更多，因此 CoT 在数学推理上更有效

因子2：信息增益（Information Gain）¶

通过信息论中的信息增益量化 CoT 从问题中获取了多少信息：

\[IG(C, Q) = H(C) - H(C|Q) = -\sum_{i=1}^{n} p(c_i|C_{i-1}) \log p(c_i|C_{i-1}) + \sum_{i=1}^{n} p(c_i|C_{i-1};Q) \log p(c_i|C_{i-1};Q)\]

其中 \(p(\cdot)\) 为模型输出概率，\(C_{i-1}\) 为 CoT 的前 \(i-1\) 个 token。IG 越大说明 CoT 对问题的"依赖"越高，即 CoT 自身提供的额外信息越少。

结论 Cl.2：当 CoT 提供了问题本身不包含的额外信息时（即 IG 低），CoT 更有效。数学推理的 IG 最低（CoT 提供大量额外推导信息），常识推理的 IG 最高（CoT 基本复述问题信息）

因子3：信息流（Information Flow）¶

使用积分梯度归因（Integrated Gradient Attribution, IGA）追踪 CoT 各位置到答案的信息传递：

\[I(x_n, y_m) = E(x_n) \int_{\alpha=0}^{1} \frac{\partial f(\alpha y_m)}{\partial E(x_n)} d\alpha\]

归一化后得到归因效应分数 \(AE(x_n, y_m)\)，再对答案 token 取平均得到 \(AAE(c, A)\)。

进一步定义信息流单调性（MIF）为 CoT 步骤位置与 AAE 之间的 Spearman 相关系数：

\[MIF(C, A) = 1 - \frac{6\sum_{i=1}^{n}[n+1-i-R(AAE(c_i, A))]^2}{n(n^2-1)}\]

结论 Cl.3：当信息流随 CoT 过程递增时（MIF 高），CoT 更有效。如 GSM8K 的 AAE 曲线明显上升，而 ECQA 基本平稳

忠实性分析：三步诊断¶

通过手动评估 50 组 CoT-答案对发现：逻辑推理任务的不忠实比例最高（ProntoQA 高达 17/50）。

步骤1：问题→CoT（Cl.4）¶

不忠实 CoT 的 IG(Q,C) 更低，说明 CoT 从问题上下文获取的信息更少
结论：不忠实 CoT 丢失了上下文中的关键正确信息

步骤2：CoT→答案（Cl.5）¶

不忠实 CoT 到答案的 AAE 显著低于忠实 CoT
结论：不忠实 CoT 与答案之间的信息交互更少

步骤3：问题→答案（Cl.6）¶

对问题中每个陈述按其到答案的 AAE 排序，在不忠实情况下，CoT 中丢失的正确陈述更多地出现在 top-k 高 AAE 位置
结论：当不忠实 CoT 发生时，模型在预测答案时绕过 CoT，直接从问题中"召回"了丢失的正确信息

QUIRE 方法¶

基于以上六条结论，提出 QUestion Information Recall and Enhancement（QUIRE）：

组件1：AAE Recall（信息召回）¶

先用 Self-Consistency 生成初始答案 \(A\)
计算问题中每个陈述 \(S\) 到答案的 \(AAE(S, A)\)
选取 top-k 个 AAE 最高的陈述作为额外提示（hints）
将这些提示加入输入 prompt，引导生成信息更完整的新 CoT

组件2：IG Vote（信息增益加权投票）¶

生成多条信息增强的 CoT（可结合 SC 技术）
对每条 CoT 计算 \(IG(Q, C)\) 作为质量权重——IG 越高说明 CoT 从问题获取了更多信息，幻觉陈述越少
用 IG 值作为 SC 投票权重，选出最终答案

实验关键数据¶

主实验结果（Llama3.1-8B）¶

方法	ProofWriter Acc	ProofWriter BS	ProofWriter FBS	ProntoQA Acc	ProntoQA BS	ProntoQA FBS
CoT	59.2	64.9	55.7	86.8	86.1	78.0
Self-Consistency	60.6	65.0	57.8	93.2	87.5	83.6
Least-to-Most	54.0	60.4	56.4	90.0	77.3	72.6
Self-Refine	51.6	65.9	53.4	88.5	91.5	84.5
QUIRE (Ours)	63.0	66.6	58.0	95.0	92.7	89.2
- AAE Recall	60.2	65.1	57.0	95.0	87.5	84.6
- IG Vote	62.8	64.1	56.6	94.3	87.0	83.4

关键发现：QUIRE 在准确率上最高提升 2.4%（ProofWriter），在忠实性（FBS）上最高提升 5.6%（ProntoQA）。消融实验表明 AAE Recall 和 IG Vote 均有独立贡献。

CoT 不忠实统计（Llama3.1-8B, 50 samples/dataset）¶

CoT→答案	GSM	AQuA	ProofWriter	ProntoQA	WinoGrande	SocialIQA
✓→✓	41	25	14	27	34	40
✓→✗	0	0	0	0	1	0
✗→✓（不忠实）	1	1	7	17	1	0
✗→✗	8	24	29	6	14	10

关键发现：逻辑推理任务（ProofWriter 14%, ProntoQA 34%）的不忠实比例远高于数学推理和常识推理。

亮点与洞察¶

信息论视角系统化：首次用 IG、AAE、MIF 三个量化指标统一解释 CoT 的有效性和忠实性，形成完整的分析框架
不忠实成因的清晰解释：通过三步信息交互分析，揭示了"模型从问题中直接召回丢失信息"这一机制，比单纯判断"忠实/不忠实"更有洞察力
分析到应用的闭环：QUIRE 方法直接源于分析结论，且实验证明了"忠实性提升→有效性提升"的因果关系
白盒分析方法论价值：IGA + 信息增益的组合为 CoT 机理研究提供了可复用的分析工具

局限性 / 可改进方向¶

仅限开源模型：由于需要梯度信息，无法分析 GPT-4 等黑盒模型
缺乏理论证明：忠实性→有效性的因果关系仅有实证支持，缺少理论保证
数据规模有限：不忠实性分析基于人工评估 50 个样本，规模较小
QUIRE 计算开销：需要额外计算 AAE 和 IG，需要梯度回传，推理成本较高
任务覆盖：分析和方法主要验证在逻辑推理任务上，数学推理和常识推理的改进幅度待验证

评分与推荐度¶

⭐⭐⭐⭐ — 分析深入系统，信息论工具使用巧妙，但应用范围局限于需要梯度信息的开源模型和逻辑推理任务，QUIRE 的实用性受限于计算开销。