ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models¶
会议: ACL 2025
arXiv: 2502.15487
代码: https://anonymous.4open.science/r/ExpliCa-6473/
领域: LLM/NLP
关键词: causal reasoning, temporal reasoning, connectives, pairwise causal discovery, benchmark
一句话总结¶
提出 ExpliCa 数据集(4800 条问题,含因果和时间连接词),首次整合因果和时间关系评估并配以众包人类评分,发现即使顶级模型准确率也难超 0.80,且模型系统性地将时间关系误判为因果关系。
研究背景与动机¶
- 领域现状:LLM 因果推理评估主要关注隐式因果(如 CLadder 基于形式规则),缺少对显式因果标记(如"because""so"连接词)的系统研究。
- 现有痛点:因果与时间关系紧密交织(效果通常在原因之后发生),但现有数据集不同时标注两者,无法评估模型区分能力。
- 核心矛盾:LLM 能否区分"因为"(因果)和"然后"(时间)这两种密切相关但本质不同的关系?
- 本文要解决什么? 构建同时包含因果和时间关系、以显式连接词表达的评估数据集。
- 切入角度:用四个连接词(so/because = 因果;then/after = 时间)× 两个方向(顺序/逆序)× 600 句对 = 4800 条目,配以众包可接受度评分。
- 核心idea一句话:LLM 系统性地将时间关系误认为因果关系——它们过度依赖事件顺序而非真正的因果理解。
方法详解¶
整体框架¶
构建 600 个句对 × 4 连接词 × 2 方向 = 4800 条目 -> 众包人类可接受度评分 -> 用 PPL(能力)和 prompting(表现)双重评估 7 个 LLM。
关键设计¶
- 连接词设计
- 因果顺序(iconic):so(因 -> 果)
- 因果逆序(anti-iconic):because(果 -> 因)
- 时间顺序:then(先 -> 后)
- 时间逆序:after(后 -> 先)
-
设计动机:连接词是唯一的关系线索,排除其他语言暗示
-
三类句对
- 因果类(200对):关系主要是因果的
- 时间类(200对):关系只是时间的
- 无关类(200对):主题相关但无因果/时间关系
-
设计动机:三分类测试区分能力
-
双重评估
- PPL 评估(能力):哪个连接词赋予更低的困惑度
- Prompting 评估(表现):直接问模型哪个连接词更合适
-
设计动机:区分"知道但说不出"和"真的不知道"
-
词汇关联偏差控制
- 用 PMI/LMI 验证三类句对间的词汇关联无显著差异
- 设计动机:确保模型不能靠词汇共现猜答案
实验关键数据¶
主实验 -- 7 个 LLM 的因果推理准确率¶
| 模型 | 因果识别 (Prompting) | 时间识别 (Prompting) | 整体 |
|---|---|---|---|
| GPT-4o | ~78% | ~65% | ~72% |
| Claude-3.5 | ~75% | ~60% | ~68% |
| Llama-3.1-70B | ~70% | ~55% | ~63% |
| 小模型平均 | ~55% | ~45% | ~50% |
PPL vs Prompting 对比¶
| 评估方式 | 大模型平均 | 小模型平均 |
|---|---|---|
| PPL(能力) | ~80% | ~70% |
| Prompting(表现) | ~72% | ~55% |
| 差距 | 8% | 15% |
关键发现¶
- 即使最好的模型也难超 0.80 准确率
- 因果-时间混淆是系统性的:模型将"then"条目高概率接受为因果关系
- PPL > Prompting:小模型的"知道"远多于"做到",差距高达 15%
- 顺序/逆序影响大:iconic 顺序比 anti-iconic 容易 ~10%
- 模型规模帮助 prompting 但不影响 PPL
亮点与洞察¶
- 因果-时间混淆是一个被忽视但重要的问题——在医疗、法律等需要精确区分"之后发生"和"因此发生"的场景中至关重要
- PPL vs Prompting 的差距揭示了 LLM 的"内隐知识"与"外显表现"之间的鸿沟
- 无代词设计排除了照应消解等干扰因素
局限性 / 可改进方向¶
- 仅限英语
- 600 句对规模相对较小
- 连接词仅 4 个,未覆盖更多因果标记
相关工作与启发¶
- vs COPA/e-CARE:它们测试隐式因果,ExpliCa 测试显式连接词表达的因果
- vs BIG-Bench:BigBench 用 because 连接,ExpliCa 同时用因果和时间连接词
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次整合因果+时间显式关系评估
- 实验充分度: ⭐⭐⭐⭐ 7 模型 × PPL+Prompting 双重评估
- 写作质量: ⭐⭐⭐⭐⭐ 数据集构建极其严谨
- 价值: ⭐⭐⭐⭐ 对因果推理研究有重要方法论贡献