On the Reliability of Large Language Models for Causal Discovery¶
会议: ACL 2025
arXiv: 2407.19638
代码: https://github.com/WilliamsToTo/causality_llm
领域: LLM / NLP
关键词: 因果发现, LLM可靠性, 记忆化, 预训练数据, 上下文影响
一句话总结¶
利用开源 LLM(OLMo、BLOOM)可访问的预训练语料库,实证验证了"因果鹦鹉"假说——LLM 识别因果关系的能力与预训练数据中该关系的出现频率高度相关(Spearman r=0.9),且错误因果关系的存在和上下文变化都会显著影响预测可靠性。
研究背景与动机¶
- 领域现状:LLM 在因果发现基准上表现出色,GPT-4 甚至超越了传统统计方法。但这些模型是真正理解因果关系,还是仅仅"回忆"了预训练数据中见过的因果关系?
- 现有痛点:Zečević et al. 提出"因果鹦鹉"假说,但由于先前研究使用闭源 LLM 或无法访问预训练语料的模型,无法提供实证证据。同时,预训练数据中的错误因果信息和上下文变化对预测的影响未被量化研究。
- 核心矛盾:如果 LLM 依赖记忆化,那么对于新颖或罕见的因果关系,LLM 的预测不可靠。这严重限制了 LLM 在真实因果发现场景中的应用。
- 本文要解决:(1) LLM 在什么条件下可靠预测因果关系?(2) 预训练数据中的错误因果关系如何影响性能?(3) 上下文信息如何影响因果判断?
- 切入角度:利用 OLMo(预训练语料 Dolma 有搜索工具 WIMBD)和 BLOOM(ROOTS 语料有搜索工具),可以直接查询因果关系在预训练数据中的出现频率,建立频率-性能的相关性分析。
- 核心idea:通过在预训练语料中搜索因果关系的出现次数,并与模型预测准确率做相关性分析,加上合成数据的控制实验,系统性验证 LLM 因果发现的可靠性边界。
方法详解¶
整体框架¶
三个研究问题对应三组实验:RQ1 用真实+合成数据验证频率-性能相关性;RQ2 研究反向/否定因果关系对置信度的影响;RQ3 研究正面/负面上下文对预测的影响。所有实验在 6 个 LLM 上进行。
关键设计¶
- 频率-性能相关性分析(RQ1):
- 做什么:量化预训练数据中因果关系出现频率与 LLM 预测准确率的相关性
- 核心思路:用预训练语料搜索工具(WIMBD/ROOTS Search)查询"X causes Y"等模板的出现次数。将因果关系按频率分桶,计算每桶内的 F1/准确率,然后计算 Spearman/Pearson 相关系数
-
设计动机:直接的实证证据——如果高频关系预测好、低频关系预测差,就支持"因果鹦鹉"假说。在合成数据上用虚构词(如 blaonge、goloneke)做控制实验进一步排除混杂因素
-
错误因果关系影响实验(RQ2):
- 做什么:量化反向/否定因果关系对正确因果关系置信度的影响
- 核心思路:定义置信度 = 10 次采样中肯定回答的比例。计算"错误关系出现次数/正确关系出现次数"的比率,分析该比率与置信度的相关性。合成数据中通过 Reverse Relation Scaling 和 Negated Relation Scaling 做控制实验
-
设计动机:预训练数据中不可避免地存在错误因果信息(如"肺癌导致吸烟"),需要量化其对模型的"毒害"程度
-
上下文影响实验(RQ3):
- 做什么:评估正面/负面上下文如何改变 LLM 的因果判断
- 核心思路:用 GPT-4o 为每条因果关系生成 5 个肯定上下文和 5 个否定上下文。在不同上下文条件下测试 6 个 LLM 的因果判断准确率
- 设计动机:因果关系的有效性是上下文相关的("下雨导致洪水"在排水差的城市成立,在排水好的地方不成立),LLM 应该能区分
实验关键数据¶
主实验(RQ1 频率-性能相关性)¶
| 模型 | 任务 | Spearman r | 最高频率区间 F1 | 最低频率区间 F1 |
|---|---|---|---|---|
| OLMo-7b | 全因果发现 | 0.90* | 0.88 | 0.20 |
| OLMo-7b | 方向识别(ConceptNet) | 0.83* | 0.93 | 0.35 |
| BLOOM-7b | 全因果发现 | 0.90* | ~0.8 | ~0.3 |
| 合成数据 (OLMo) | 方向识别 | 1.00* | ~0.95 | ~0.3 |
上下文影响(RQ3)¶
| 条件 | 全因果发现 F1 (6模型平均) |
|---|---|
| 无上下文 | 0.66 |
| 正面上下文 | 0.83 (+26%) |
| 负面上下文 | 0.33 (-50%) |
关键发现¶
- RQ1:"因果鹦鹉"假说得到强实证支持:预训练语料中因果关系的出现频率与预测准确率高度正相关(Spearman r=0.83-1.0),低频关系的 F1 可能只有高频的 1/4
- RQ2:错误因果关系显著降低置信度:反向因果关系的出现比率与正确关系的置信度呈显著负相关(Pearson r=-0.83 to -0.98),即使正确关系出现 1000 次,只要反向关系也出现 1000 次,置信度就大幅下降
- RQ3:上下文可以将准确率翻倍或腰斩:正面上下文使 F1 从 0.66 提升至 0.83,负面上下文降至 0.33。这表明不提供上下文的 LLM 因果发现本质上不可靠
- GPT-4o 在正面上下文下达到 0.92 F1,但在负面上下文下同样暴跌至 0.27
亮点与洞察¶
- 首次用预训练语料搜索直接验证"因果鹦鹉"假说:之前只有猜测,本文提供了定量证据。OLMo/BLOOM 语料公开+搜索工具的组合是关键使能条件
- 合成数据控制实验设计精巧:用虚构词消除了"模型可能从其他来源学到因果知识"的混杂因素,做到了真正的因果推断
- 上下文的巨大影响是重要警示:同一对因果关系在不同上下文下结果天差地别,说明无上下文的 LLM 因果发现结果不可信。未来应将上下文作为必要输入
局限性 / 可改进方向¶
- 搜索工具无法覆盖预训练语料中因果关系的所有提及方式(如隐含因果表述),出现频率是下估的
- 仅测试了 7B 规模的开源模型,更大规模模型的记忆化特征可能不同
- 合成数据实验用 LoRA 微调而非完整预训练,可能无法完全模拟预训练阶段的学习行为
- 未探索如何在实践中缓解记忆化问题(如与统计方法的结合)
相关工作与启发¶
- vs Kıcıman et al. (2023):先前声称 GPT-4 在因果发现上超越统计方法,本文表明这主要是因为测试集中的因果关系在预训练数据中出现频率高,泛化能力有限
- vs Zečević et al. (2023):提出"因果鹦鹉"猜想但无实证,本文提供了定量验证
- vs 传统统计因果发现方法:LLM 虽然在已知关系上表现好,但对新颖关系的发现能力有限,不能替代统计方法。两者互补可能是未来方向
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次用预训练语料数据实证验证因果鹦鹉假说,填补重要空白
- 实验充分度: ⭐⭐⭐⭐⭐ 三个 RQ 各有真实+合成数据实验,多模型多数据集,相关性分析严谨
- 写作质量: ⭐⭐⭐⭐ 结构清晰,研究问题驱动的组织方式好,图表丰富
- 价值: ⭐⭐⭐⭐ 对 LLM 因果推理能力的局限性提供了重要洞察,警示了不假思索地信任 LLM 做因果发现