ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models¶

会议: ACL 2025
arXiv: 2502.15487
代码: https://anonymous.4open.science/r/ExpliCa-6473/
领域: LLM/NLP
关键词: causal reasoning, temporal reasoning, connectives, pairwise causal discovery, benchmark

一句话总结¶

提出 ExpliCa 数据集（4800 条问题，含因果和时间连接词），首次整合因果和时间关系评估并配以众包人类评分，发现即使顶级模型准确率也难超 0.80，且模型系统性地将时间关系误判为因果关系。

研究背景与动机¶

领域现状：LLM 因果推理评估主要关注隐式因果（如 CLadder 基于形式规则），缺少对显式因果标记（如"because""so"连接词）的系统研究。
现有痛点：因果与时间关系紧密交织（效果通常在原因之后发生），但现有数据集不同时标注两者，无法评估模型区分能力。
核心矛盾：LLM 能否区分"因为"（因果）和"然后"（时间）这两种密切相关但本质不同的关系？
本文要解决什么？ 构建同时包含因果和时间关系、以显式连接词表达的评估数据集。
切入角度：用四个连接词（so/because = 因果；then/after = 时间）× 两个方向（顺序/逆序）× 600 句对 = 4800 条目，配以众包可接受度评分。
核心idea一句话：LLM 系统性地将时间关系误认为因果关系——它们过度依赖事件顺序而非真正的因果理解。

方法详解¶

整体框架¶

构建 600 个句对 × 4 连接词 × 2 方向 = 4800 条目 -> 众包人类可接受度评分 -> 用 PPL（能力）和 prompting（表现）双重评估 7 个 LLM。

关键设计¶

连接词设计
因果顺序（iconic）：so（因 -> 果）
因果逆序（anti-iconic）：because（果 -> 因）
时间顺序：then（先 -> 后）
时间逆序：after（后 -> 先）
设计动机：连接词是唯一的关系线索，排除其他语言暗示
三类句对
因果类（200对）：关系主要是因果的
时间类（200对）：关系只是时间的
无关类（200对）：主题相关但无因果/时间关系
设计动机：三分类测试区分能力
双重评估
PPL 评估（能力）：哪个连接词赋予更低的困惑度
Prompting 评估（表现）：直接问模型哪个连接词更合适
设计动机：区分"知道但说不出"和"真的不知道"
词汇关联偏差控制
用 PMI/LMI 验证三类句对间的词汇关联无显著差异
设计动机：确保模型不能靠词汇共现猜答案

实验关键数据¶

主实验 -- 7 个 LLM 的因果推理准确率¶

模型	因果识别 (Prompting)	时间识别 (Prompting)	整体
GPT-4o	~78%	~65%	~72%
Claude-3.5	~75%	~60%	~68%
Llama-3.1-70B	~70%	~55%	~63%
小模型平均	~55%	~45%	~50%

PPL vs Prompting 对比¶

评估方式	大模型平均	小模型平均
PPL（能力）	~80%	~70%
Prompting（表现）	~72%	~55%
差距	8%	15%

关键发现¶

即使最好的模型也难超 0.80 准确率
因果-时间混淆是系统性的：模型将"then"条目高概率接受为因果关系
PPL > Prompting：小模型的"知道"远多于"做到"，差距高达 15%
顺序/逆序影响大：iconic 顺序比 anti-iconic 容易 ~10%
模型规模帮助 prompting 但不影响 PPL

亮点与洞察¶

因果-时间混淆是一个被忽视但重要的问题——在医疗、法律等需要精确区分"之后发生"和"因此发生"的场景中至关重要
PPL vs Prompting 的差距揭示了 LLM 的"内隐知识"与"外显表现"之间的鸿沟
无代词设计排除了照应消解等干扰因素

局限性 / 可改进方向¶

仅限英语
600 句对规模相对较小
连接词仅 4 个，未覆盖更多因果标记

评分¶

新颖性: ⭐⭐⭐⭐ 首次整合因果+时间显式关系评估
实验充分度: ⭐⭐⭐⭐ 7 模型 × PPL+Prompting 双重评估
写作质量: ⭐⭐⭐⭐⭐ 数据集构建极其严谨
价值: ⭐⭐⭐⭐ 对因果推理研究有重要方法论贡献