跳转至

ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models

会议: ACL 2025
arXiv: 2502.15487
代码: https://anonymous.4open.science/r/ExpliCa-6473/
领域: LLM/NLP
关键词: causal reasoning, temporal reasoning, connectives, pairwise causal discovery, benchmark

一句话总结

提出 ExpliCa 数据集(4800 条问题,含因果和时间连接词),首次整合因果和时间关系评估并配以众包人类评分,发现即使顶级模型准确率也难超 0.80,且模型系统性地将时间关系误判为因果关系。

研究背景与动机

  1. 领域现状:LLM 因果推理评估主要关注隐式因果(如 CLadder 基于形式规则),缺少对显式因果标记(如"because""so"连接词)的系统研究。
  2. 现有痛点:因果与时间关系紧密交织(效果通常在原因之后发生),但现有数据集不同时标注两者,无法评估模型区分能力。
  3. 核心矛盾:LLM 能否区分"因为"(因果)和"然后"(时间)这两种密切相关但本质不同的关系?
  4. 本文要解决什么? 构建同时包含因果和时间关系、以显式连接词表达的评估数据集。
  5. 切入角度:用四个连接词(so/because = 因果;then/after = 时间)× 两个方向(顺序/逆序)× 600 句对 = 4800 条目,配以众包可接受度评分。
  6. 核心idea一句话:LLM 系统性地将时间关系误认为因果关系——它们过度依赖事件顺序而非真正的因果理解。

方法详解

整体框架

构建 600 个句对 × 4 连接词 × 2 方向 = 4800 条目 -> 众包人类可接受度评分 -> 用 PPL(能力)和 prompting(表现)双重评估 7 个 LLM。

关键设计

  1. 连接词设计
  2. 因果顺序(iconic):so(因 -> 果)
  3. 因果逆序(anti-iconic):because(果 -> 因)
  4. 时间顺序:then(先 -> 后)
  5. 时间逆序:after(后 -> 先)
  6. 设计动机:连接词是唯一的关系线索,排除其他语言暗示

  7. 三类句对

  8. 因果类(200对):关系主要是因果的
  9. 时间类(200对):关系只是时间的
  10. 无关类(200对):主题相关但无因果/时间关系
  11. 设计动机:三分类测试区分能力

  12. 双重评估

  13. PPL 评估(能力):哪个连接词赋予更低的困惑度
  14. Prompting 评估(表现):直接问模型哪个连接词更合适
  15. 设计动机:区分"知道但说不出"和"真的不知道"

  16. 词汇关联偏差控制

  17. 用 PMI/LMI 验证三类句对间的词汇关联无显著差异
  18. 设计动机:确保模型不能靠词汇共现猜答案

实验关键数据

主实验 -- 7 个 LLM 的因果推理准确率

模型 因果识别 (Prompting) 时间识别 (Prompting) 整体
GPT-4o ~78% ~65% ~72%
Claude-3.5 ~75% ~60% ~68%
Llama-3.1-70B ~70% ~55% ~63%
小模型平均 ~55% ~45% ~50%

PPL vs Prompting 对比

评估方式 大模型平均 小模型平均
PPL(能力) ~80% ~70%
Prompting(表现) ~72% ~55%
差距 8% 15%

关键发现

  • 即使最好的模型也难超 0.80 准确率
  • 因果-时间混淆是系统性的:模型将"then"条目高概率接受为因果关系
  • PPL > Prompting:小模型的"知道"远多于"做到",差距高达 15%
  • 顺序/逆序影响大:iconic 顺序比 anti-iconic 容易 ~10%
  • 模型规模帮助 prompting 但不影响 PPL

亮点与洞察

  • 因果-时间混淆是一个被忽视但重要的问题——在医疗、法律等需要精确区分"之后发生"和"因此发生"的场景中至关重要
  • PPL vs Prompting 的差距揭示了 LLM 的"内隐知识"与"外显表现"之间的鸿沟
  • 无代词设计排除了照应消解等干扰因素

局限性 / 可改进方向

  • 仅限英语
  • 600 句对规模相对较小
  • 连接词仅 4 个,未覆盖更多因果标记

相关工作与启发

  • vs COPA/e-CARE:它们测试隐式因果,ExpliCa 测试显式连接词表达的因果
  • vs BIG-Bench:BigBench 用 because 连接,ExpliCa 同时用因果和时间连接词

评分

  • 新颖性: ⭐⭐⭐⭐ 首次整合因果+时间显式关系评估
  • 实验充分度: ⭐⭐⭐⭐ 7 模型 × PPL+Prompting 双重评估
  • 写作质量: ⭐⭐⭐⭐⭐ 数据集构建极其严谨
  • 价值: ⭐⭐⭐⭐ 对因果推理研究有重要方法论贡献