跳转至

Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness

会议: ACL 2025
arXiv: 2405.18915
代码: https://github.com/BugMakerzzz/better_cot (有)
领域: LLM推理
关键词: Chain-of-Thought, 有效性, 忠实性, 信息增益, QUIRE

一句话总结

系统分析 CoT 有效性和忠实性的影响因素,发现 CoT 有效性取决于问题难度、信息增益和信息流向,忠实性是有效性的关键前提,提出 QUIRE 方法(先回忆再增强)提升有效性 2.4% 和忠实性 5.6%。

研究背景与动机

  1. 领域现状:CoT 已被广泛使用,但何时有效、何时忠实(推理链真正影响答案而非事后合理化)缺乏系统分析。
  2. 现有痛点:(a) 模型有时即使 CoT 正确但答案错误(CoT 不忠实);(b) 难题上 CoT 改进不稳定;(c) 缺乏量化 CoT 信息贡献的分析框架。
  3. 核心 idea 一句话:通过信息增益分析揭示 CoT 有效性和忠实性的机制,用 QUIRE 先生成粗答案回忆问题信息再增强 CoT。

方法详解

QUIRE (QUestion Information Recall and Enhancement)

  1. 先让模型直接生成"粗答案"(无 CoT)以回忆问题中的关键信息
  2. 将粗答案作为额外上下文提示新一轮 CoT 生成
  3. 按 CoT 的信息增益对多条推理链加权投票

三因素分析

  • 问题难度:中等难度问题 CoT 效果最好,极简/极难两端收益低
  • 信息增益:CoT 引入的新信息量越大,有效性越高
  • 信息流向:CoT 信息需实际流入最终答案预测(而非被忽略),忠实性才成立

实验关键数据

  • 有效性提升 2.4%,忠实性提升 5.6%
  • 分析了 CoT 在不同难度任务上的表现模式

亮点与洞察

  • 忠实性是有效性的前提:如果 CoT 不忠实(答案不依赖推理链),则 CoT 无法提升性能——这对所有使用 CoT 的工作都是重要提醒
  • 信息增益作为 CoT 质量度量:可用于过滤/加权多条推理链

局限性 / 可改进方向

  • QUIRE 增加了额外推理开销(先生成粗答案)
  • 忠实性的因果验证方法仍有争议

评分

  • 新颖性: ⭐⭐⭐⭐ CoT 有效性/忠实性的系统分析有理论贡献
  • 实验充分度: ⭐⭐⭐⭐ 多任务类型分析
  • 写作质量: ⭐⭐⭐⭐ 分析框架清晰
  • 价值: ⭐⭐⭐⭐ 对理解和改进 CoT 有指导意义