Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness¶

会议: ICML 2025
arXiv: 2405.18915
代码: GitHub
领域: LLM 推理
关键词: 链式思维, 推理有效性, 推理忠实性, 信息增益, 信息流

一句话总结¶

本文从有效性和忠实性两个角度系统分析影响 CoT 性能的关键因素，发现问题难度、信息增益和信息流是有效性的核心因素，并揭示 LLM 在预测答案时可从问题中直接召回 CoT 缺失的正确信息导致不忠实推理，进而提出 QUIRE 方法同时提升 CoT 的忠实性和有效性。

领域现状: CoT 技术让 LLM 在数学等复杂推理任务上表现出色，甚至通过 RL 扩展（如 o1、DeepSeek-R1）超越人类。但 CoT 在某些任务上效果不佳甚至有害。
现有痛点: 已有评估工作要么只关注有效性（CoT 在哪些任务上好用），要么只关注忠实性（CoT 是否真正影响答案），但都缺乏深入的因果分析。
核心矛盾: CoT 有效性和忠实性的关系不清楚——不忠实的 CoT（错误推理但正确答案）大量存在于逻辑推理任务中。
本文目标: 识别影响 CoT 有效性的关键因素，解释不忠实 CoT 的机制，并设计方法同时提升两者。
切入角度: 使用信息论工具（信息增益、梯度归因分析）量化 question-CoT-answer 三者间的信息交互。
核心 idea: 不忠实 CoT 的根因是 LLM 在预测答案时直接从问题中召回了 CoT 遗漏的正确信息——利用这一发现，主动召回信息增强 CoT 生成可同时提升忠实性和有效性。

QUIRE（Question Information Recall and Enhancement）方法包含两个核心组件：AAE Recall 和 IG Vote。输入为问题和 CoT，输出为增强后的 CoT 和最终答案。

AAE Recall（归因效应召回）:
- 功能: 从问题上下文中主动召回关键信息
- 核心思路: 先用 Self-Consistency 生成原始答案 A，计算问题中每个语句到答案的平均归因效应 \(AAE(S,A)\)，选取 top-k 高分语句作为额外 hint 注入提示，引导模型生成信息更完整的 CoT
- 设计动机: 实验发现不忠实情况下 LLM 在预测答案时与问题中正确语句有强因果关联，主动利用此机制补全 CoT
IG Vote（信息增益投票）:
- 功能: 基于 CoT 质量对多个候选答案进行加权投票
- 核心思路: 计算每个 CoT 的信息增益 \(IG(Q,C) = H(C) - H(C|Q)\)，IG 越高表示 CoT 从问题获取的信息越多、自身引入的幻觉越少。用 IG 作为 Self-Consistency 投票权重
- 设计动机: 高 IG 的 CoT 包含更少幻觉语句，更可能产生正确答案
信息流分析框架:
- 功能: 量化 CoT 推理过程中的信息交互
- 核心思路: 使用积分梯度归因（IGA）计算输入 token 对输出 token 的重要性，定义信息流单调性（MIF）为 AAE 随 CoT 步骤变化的 Spearman 相关系数
- 设计动机: MIF 越高表示 CoT 越有效地向答案传递信息

数据集	指标	QUIRE	SC (baseline)	提升
ProofWriter	Acc	63.0	60.6	+2.4%
ProntoQA	Acc	95.0	93.2	+1.8%
ProofWriter	FBS (忠实性)	58.0	57.8	+0.2%
ProntoQA	FBS (忠实性)	89.2	83.6	+5.6%