跳转至

📚 AI Paper Notes

Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness

Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness¶

会议: ACL 2025
arXiv: 2405.18915
代码: https://github.com/BugMakerzzz/better_cot (有)
领域: LLM推理
关键词: Chain-of-Thought, 有效性, 忠实性, 信息增益, QUIRE

一句话总结¶

系统分析 CoT 有效性和忠实性的影响因素，发现 CoT 有效性取决于问题难度、信息增益和信息流向，忠实性是有效性的关键前提，提出 QUIRE 方法（先回忆再增强）提升有效性 2.4% 和忠实性 5.6%。

研究背景与动机¶

领域现状：CoT 已被广泛使用，但何时有效、何时忠实（推理链真正影响答案而非事后合理化）缺乏系统分析。
现有痛点：(a) 模型有时即使 CoT 正确但答案错误（CoT 不忠实）；(b) 难题上 CoT 改进不稳定；(c) 缺乏量化 CoT 信息贡献的分析框架。
核心 idea 一句话：通过信息增益分析揭示 CoT 有效性和忠实性的机制，用 QUIRE 先生成粗答案回忆问题信息再增强 CoT。

方法详解¶

QUIRE (QUestion Information Recall and Enhancement)¶

先让模型直接生成"粗答案"（无 CoT）以回忆问题中的关键信息
将粗答案作为额外上下文提示新一轮 CoT 生成
按 CoT 的信息增益对多条推理链加权投票

三因素分析¶

问题难度：中等难度问题 CoT 效果最好，极简/极难两端收益低
信息增益：CoT 引入的新信息量越大，有效性越高
信息流向：CoT 信息需实际流入最终答案预测（而非被忽略），忠实性才成立

实验关键数据¶

有效性提升 2.4%，忠实性提升 5.6%
分析了 CoT 在不同难度任务上的表现模式

亮点与洞察¶

忠实性是有效性的前提：如果 CoT 不忠实（答案不依赖推理链），则 CoT 无法提升性能——这对所有使用 CoT 的工作都是重要提醒
信息增益作为 CoT 质量度量：可用于过滤/加权多条推理链

局限性 / 可改进方向¶

QUIRE 增加了额外推理开销（先生成粗答案）
忠实性的因果验证方法仍有争议

评分¶

新颖性: ⭐⭐⭐⭐ CoT 有效性/忠实性的系统分析有理论贡献
实验充分度: ⭐⭐⭐⭐ 多任务类型分析
写作质量: ⭐⭐⭐⭐ 分析框架清晰
价值: ⭐⭐⭐⭐ 对理解和改进 CoT 有指导意义