Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness¶
会议: ACL 2025
arXiv: 2405.18915
代码: https://github.com/BugMakerzzz/better_cot (有)
领域: LLM推理
关键词: Chain-of-Thought, 有效性, 忠实性, 信息增益, QUIRE
一句话总结¶
系统分析 CoT 有效性和忠实性的影响因素,发现 CoT 有效性取决于问题难度、信息增益和信息流向,忠实性是有效性的关键前提,提出 QUIRE 方法(先回忆再增强)提升有效性 2.4% 和忠实性 5.6%。
研究背景与动机¶
- 领域现状:CoT 已被广泛使用,但何时有效、何时忠实(推理链真正影响答案而非事后合理化)缺乏系统分析。
- 现有痛点:(a) 模型有时即使 CoT 正确但答案错误(CoT 不忠实);(b) 难题上 CoT 改进不稳定;(c) 缺乏量化 CoT 信息贡献的分析框架。
- 核心 idea 一句话:通过信息增益分析揭示 CoT 有效性和忠实性的机制,用 QUIRE 先生成粗答案回忆问题信息再增强 CoT。
方法详解¶
QUIRE (QUestion Information Recall and Enhancement)¶
- 先让模型直接生成"粗答案"(无 CoT)以回忆问题中的关键信息
- 将粗答案作为额外上下文提示新一轮 CoT 生成
- 按 CoT 的信息增益对多条推理链加权投票
三因素分析¶
- 问题难度:中等难度问题 CoT 效果最好,极简/极难两端收益低
- 信息增益:CoT 引入的新信息量越大,有效性越高
- 信息流向:CoT 信息需实际流入最终答案预测(而非被忽略),忠实性才成立
实验关键数据¶
- 有效性提升 2.4%,忠实性提升 5.6%
- 分析了 CoT 在不同难度任务上的表现模式
亮点与洞察¶
- 忠实性是有效性的前提:如果 CoT 不忠实(答案不依赖推理链),则 CoT 无法提升性能——这对所有使用 CoT 的工作都是重要提醒
- 信息增益作为 CoT 质量度量:可用于过滤/加权多条推理链
局限性 / 可改进方向¶
- QUIRE 增加了额外推理开销(先生成粗答案)
- 忠实性的因果验证方法仍有争议
评分¶
- 新颖性: ⭐⭐⭐⭐ CoT 有效性/忠实性的系统分析有理论贡献
- 实验充分度: ⭐⭐⭐⭐ 多任务类型分析
- 写作质量: ⭐⭐⭐⭐ 分析框架清晰
- 价值: ⭐⭐⭐⭐ 对理解和改进 CoT 有指导意义