IRIS: An Iterative and Integrated Framework for Verifiable Causal Discovery¶
会议: ACL 2025
arXiv: 2510.09217
代码: https://github.com/WilliamsToTo/iris
机构: Monash University, Microsoft Research India
领域: 因果推理
关键词: causal discovery, LLM, hybrid method, missing variable proposal, iterative framework, value extraction
一句话总结¶
提出 IRIS 框架——仅需一组初始变量名作为输入,即可自动检索文档、提取变量值构建结构化数据、通过混合因果发现(GES 统计算法 + LLM 因果关系验证)构建因果图,并通过缺失变量提议组件迭代扩展变量集合,放松了传统方法的无环和因果充分性假设,在 Cancer、Diabetes、Obesity、ADNI、Insurance 等 6 个数据集上 F1 全面超越 0-shot/CoT/RAG 基线。
研究背景与动机¶
- 统计因果发现依赖高质量表格数据:PC、GES、NOTEARS 等传统算法需预先收集结构化观测数据,获取成本高、周期长。在生物学、经济学、医疗健康等领域,高质量的因果发现数据往往需要大量人力物力,极大限制了因果发现在 NLP 等领域的落地应用
- LLM 只能复述训练数据中的已知关系:LLM-based 方法(如 Pairwise-LLM、BFS-LLM)擅长识别训练数据中高频出现的因果关系(如"吸烟→肺癌"),但 Zečević et al. (2023) 和 Feng et al. (2024b) 的实证研究表明,LLM 在发现训练数据中罕见或未曾记录的新因果关系时表现不佳,本质上是"因果鹦鹉"(causal parrots)——依赖记忆而非推理
- 统计方法的假设过于理想化:大多数算法要求因果充分性假设(无隐变量/不可观测变量)和无环性假设(因果图中无环路),但现实世界广泛存在反馈循环,如贫困循环(poverty → limited education → low-paying jobs → poverty)和捕食者-猎物循环(predator increase → prey decrease → predator decrease),这些假设与真实场景严重脱节
- 变量集合需预定义且不可扩展:统计算法要求输入预定义的随机变量集合,无法在发现过程中自动识别可能遗漏的重要变量。例如研究癌症时,如果初始变量中未包含"空气污染",传统方法永远无法发现它的因果作用
- LLM 因果预测缺乏验证机制:统计方法有严格的数学可验证性(如条件独立性检验),而 LLM 的因果判断缺乏透明的验证手段,输出的可信度难以量化
- 两类方法的互补潜力尚未充分挖掘:统计方法能从数据中发现新的、未知的关系但需要结构化数据;LLM 能利用预训练知识识别已知关系但不需要数据。IRIS 试图结合两者优势——统计方法提供发现能力,LLM 提供知识验证能力
方法详解¶
整体框架¶
IRIS(Iterative Retrieval and Integrated System for Real-Time Causal Discovery)由四个核心组件按流水线连接:文档检索与变量值提取 → 混合因果发现(统计分支 + LLM 验证分支 → 图合并)→ 缺失变量提议 → 迭代扩展。整个流程的输入仅需初始变量集 \(\mathbb{Z}=\{z_1, z_2, \ldots, z_N\}\)(例如 {smoking, cancer, pollution, diet}),最终输出扩展因果图 \(\mathcal{G}=(\mathbb{Z}_m, \mathbb{R})\),其中 \(\mathbb{Z}_m\) 包含初始变量与新发现变量,\(\mathbb{R}\) 为所有因果关系边。
组件一:文档检索与变量值提取¶
- 目标:从变量名出发,自动收集相关文档并提取变量值,构建结构化表格数据 \(\mathbb{X}\)(行=文档,列=变量)
- 文档检索:通过 Google Search API 使用逐步去除策略(stepwise removal)构造查询。先用所有变量名的 AND 组合(如 "smoking" AND "cancer" AND "pollution"),逐步减少变量数量,最终到单变量查询。多变量查询的检索配额 \(k\) 设置更高以确保文档与多数变量相关。同时使用变量同义词增强覆盖率,检索持续到总文档数达预设阈值
- 变量值提取:对每篇文档 \(d_i\) 和每个变量 \(z_j\),设计包含变量描述(名称 + 值含义)的 prompt \(l\),引导 LLM 按多步思维链推理提取值:\(o_{ij} = \bm{M}(l(d_i, z_j))\)。最终构建的表格 \(\mathbb{X}\) 中每个元素 \(v_{ij}\) 为变量 \(z_j\) 在文档 \(d_i\) 中的值
- 设计考量:多变量组合查询优先确保文档与所有变量相关,逐步降级保证每个变量都有足够覆盖;LLM 提取替代人工标注大幅降低数据收集成本
组件二:混合因果发现¶
- 统计分支:对结构化数据 \(\mathbb{X}\) 运行统计因果发现算法(PC / GES / NOTEARS),通过条件独立性检验等统计方法发现因果关系,输出因果图 \(\hat{\mathcal{G}_s}\)。实验中 GES 平均表现最优
- LLM 验证分支:将每对变量的潜在因果关系构造为 claim(如"smoking causes lung cancer"),在限定的 7 个学术网站域(jstor.org, springer.com, ieee.org, ncbi.nlm.nih.gov, sciencedirect.com, scholar.google.com, arxiv.org)中检索含因果双方术语的证据文档。LLM 对每篇文档判断支持(support) / 反驳(refute) / 无关(not related)。若多数文档支持则纳入因果图 \(\hat{\mathcal{G}_v}\)
- 图合并:以统计图 \(\hat{\mathcal{G}_s}\) 为基础,加入 \(\hat{\mathcal{G}_v}\) 中高置信度关系,移除被学术文献强烈反驳的关系。合并策略的两个理由:(1) 结构化数据 \(\mathbb{X}\) 可能有噪声;(2) 被可信学术文献广泛支持/反驳的关系可视为已知知识。混合策略天然允许因果图中存在环路
组件三:缺失变量提议(MVP)¶
- 变量抽象:LLM 分析每篇检索文档的内容,识别可能影响初始变量或被初始变量影响的新变量候选
- 双重筛选机制:
- 因果关系验证(VCR):对每个候选新变量,用§3.3 的方法在学术网站检索证据,验证其与初始变量的因果关系
- 统计度量(PMI):通过 Google Search API 获取文档共现计数,计算逐点互信息 \(PMI(z_i, z_j) = \log \frac{o(z_i, z_j)}{o(z_i) \cdot o(z_j)}\),取聚合 PMI 分数最高的 top-\(k\) 变量纳入 \(\mathbb{Z}_m\)
- 迭代扩展:将 \(\mathbb{Z}_m\) 中新变量加入原变量集,重新执行数据收集→值提取→因果发现流程,使因果图持续增长
实验¶
表1:完整框架在 6 个数据集上的评估(Precision / Recall / F1↑ / NHD Ratio↓)¶
| 方法 | Cancer | Resp. Disease | Diabetes | Obesity | ADNI | Insurance |
|---|---|---|---|---|---|---|
| 0-shot | 0.64/0.32/0.43/0.57 | 0.67/0.36/0.47/0.53 | 0.70/0.46/0.56/0.45 | 0.57/0.33/0.42/0.58 | 0.47/0.29/0.36/0.64 | 0.35/0.38/0.36/0.65 |
| CoT | 0.67/0.38/0.48/0.54 | 0.64/0.40/0.49/0.51 | 0.66/0.48/0.55/0.46 | 0.59/0.38/0.46/0.54 | 0.46/0.31/0.37/0.62 | 0.41/0.38/0.39/0.61 |
| RAG | 0.70/0.44/0.54/0.49 | 0.64/0.45/0.53/0.47 | 0.73/0.47/0.57/0.43 | 0.62/0.45/0.52/0.49 | 0.50/0.34/0.40/0.60 | 0.44/0.40/0.42/0.57 |
| IRIS | 0.89/0.57/0.70/0.30 | 0.67/0.55/0.60/0.40 | 0.76/0.50/0.60/0.39 | 0.67/0.58/0.62/0.38 | 0.50/0.36/0.42/0.58 | 0.61/0.46/0.53/0.47 |
配对 t 检验确认 IRIS 与基线差异在 F1 和 NHD Ratio 上均统计显著(\(p \leq 0.05\))。Insurance 数据集从 27 个初始变量扩展到 35 个变量 67 条边,展示了 IRIS 的可扩展性。IRIS 的核心优势体现在 recall 上——所有基线在 precision 上有时可接近 IRIS,但 recall 无一能匹敌,说明混合策略确实能发现更多真实的因果关系。
表2:变量值提取组件评估(Precision / Recall / F1)¶
| 方法 | AppleGastronome | Neuropathic |
|---|---|---|
| COAT (GPT-4o) | 0.74 / 0.76 / 0.75 | 0.72 / 0.80 / 0.79 |
| IRIS (Llama-3.1-8b) | 0.71 / 0.72 / 0.71 | 0.76 / 0.82 / 0.79 |
| IRIS (GPT-3.5) | 0.75 / 0.77 / 0.76 | 0.71 / 0.89 / 0.79 |
| IRIS (GPT-4o) | 0.79 / 0.82 / 0.79 | 0.73 / 1.00 / 0.84 |
在相同 LLM(GPT-4o)下,IRIS 的值提取方法优于 COAT,且性能随 LLM 能力提升(Llama→GPT-3.5→GPT-4o)稳定增长。Neuropathic 上 GPT-4o 达到 100% recall。二值变量(Neuropathic, 0/1)比三值变量(AppleGastronome, -1/0/1)更容易提取。
表3:缺失变量提议(MVP)成功率¶
| 方法 | Cancer | Resp. | Diabetes | Obesity | ADNI | Insurance |
|---|---|---|---|---|---|---|
| 0-shot | 0.40 | 0.25 | 0.50 | 0.25 | 0.25 | 0.22 |
| CoT | 0.40 | 0.50 | 0.50 | 0.75 | 0.25 | 0.30 |
| RAG | 0.60 | 0.75 | 0.75 | 0.75 | 0.38 | 0.41 |
| MVP (完整) | 0.80 | 0.75 | 1.00 | 1.00 | 0.50 | 0.59 |
| − VCR | 0.60 | 0.75 | 0.50 | 0.75 | 0.25 | 0.48 |
| − Stats | 0.60 | 0.75 | 0.75 | 1.00 | 0.38 | 0.52 |
| ↔ Llama | 0.40 | 0.50 | 0.25 | 0.50 | 0.13 | 0.45 |
通过模拟缺失变量的方式评估:从完整因果图中依次移除每个变量,检查 MVP 能否在提议变量集中找回被移除的变量。Diabetes 和 Obesity 达到 100% 成功率。
关键发现¶
- 混合方法全面优于单一方法:统计方法发现新关系,LLM 验证已知关系,互补后 IRIS 在 Cancer 上 F1 从 RAG 的 0.54 提升到 0.70,NHD Ratio 从 0.49 降至 0.30
- IRIS 的优势主要体现在 recall:基线方法(尤其是 RAG)有时在 precision 上接近 IRIS,但 recall 全面落后。这证实混合策略能发现更多真实因果边
- 统计算法没有"万能钥匙":GES 平均最优(比 PC 高 0.09 F1),但 NOTEARS 在 Diabetes/Obesity 上完全失败(F1=0, NHD=1),算法选择需因数据特征而异
- MVP 双重筛选缺一不可:去掉 VCR 导致 Diabetes 成功率从 1.00 降至 0.50,去掉 Stats 导致 ADNI 从 0.50 降至 0.38,验证了两种信号的互补性
- GPT-4o 在专业知识密集任务上远超 Llama:ADNI 数据集差距尤为显著(MVP 成功率 0.50 vs 0.13),因阿尔茨海默病相关知识在小模型训练数据中极度稀缺
- 框架可扩展性强:从 4 个变量(Cancer)到 27 个变量(Insurance)均有效,Insurance 最终扩展至 35 变量 67 边
亮点¶
- "仅需变量名"的范式转变:传统因果发现需预收集高质量表格数据,IRIS 将输入简化为一组变量名列表,全流程(检索→提取→发现→扩展)自动化,将因果发现的门槛从"数据科学家+领域专家"降低到"任何能给出变量名的研究者"
- 限定学术搜索域确保文献验证可信——jstor, springer, ieee, ncbi, sciencedirect, scholar.google, arxiv 共 7 个权威学术网站,实现简单但效果显著的质量控制
- 迭代扩展机制使因果图从核心变量逐步增长,适合探索性研究场景——研究者可以从少量已知变量出发,让系统自动发现"未知的未知"
- 混合策略天然兼容环路:因果图不再受制于传统方法的无环假设,能表达贫困循环、捕食者-猎物循环等真实世界的反馈机制
- 每个组件都有独立的数学形式化和实验验证,避免了端到端黑箱——值提取、因果发现、变量提议各自有基线对比和消融实验
局限性¶
- 计算开销大:LLM 查询次数随变量数 \(N\) 呈 \(O(N^2)\) 增长(需检查所有变量对),平均运行约 15 小时(约为 zero-shot 的 3 倍)。虽然论文指出所有 LLM 查询可并行化,但实际 API 成本和延迟仍不容忽视
- 依赖商业服务:Google Search API(文档检索 + PMI 计数)和 GPT-4o(值提取 + 关系验证 + 变量抽象)为不可替代的核心组件,可复现性受限于 API 稳定性和费用
- LLM 提取的变量值存在噪声:特别是三值分类(-1/0/1)比二值更容易出错(AppleGastronome F1=0.79 vs Neuropathic F1=0.84),噪声会传导至统计因果发现分支
- 检索文档的覆盖偏差:Google Search 返回的文档倾向于高频、主流话题,对冷门领域的因果关系可能覆盖不足
- 复杂领域性能仍有瓶颈:ADNI(阿尔茨海默病)整体 F1 仅 0.42,说明在专业知识密集场景中,当前方法仍难以高效发现和验证因果关系
- LLM 推理的能耗与环境影响:论文承认了这一问题但未给出解决方案
相关工作¶
- 统计因果发现三大流派:约束-based(PC,通过条件独立性检验排除非因果边)、分数-based(GES,贪心搜索最优 DAG 结构)、函数-based(NOTEARS,将 DAG 学习转化为连续优化问题)。这些方法数学可验证但受限于数据质量、因果充分性和无环性假设
- LLM 因果发现:Pairwise-LLM(Feng et al., 2024b)逐对判断变量间因果关系;BFS-LLM(Jiralerspong et al., 2024)用广度优先搜索组织推理顺序。简单数据集上表现尚可,复杂数据集上显著退化
- LLM + 统计混合方法:COAT(Liu et al., 2024)用 LLM 提取变量值 + PC 算法发现关系,是最直接的前身工作。但 COAT 需手动收集文档、不扩展变量集、只用 PC 一种统计算法。IRIS 在此基础上增加了自动检索、混合发现(统计+验证双分支)和迭代扩展三重升级
- 因果关系验证:Si et al. (2024) 和 Wadden et al. (2022) 的 claim verification 思路被 IRIS 直接借鉴——将因果关系构造为 claim,在学术文献中查找支持/反驳证据
- 隐变量发现:传统方法如 Tetrad-based(Silva et al., 2006)和高阶矩方法(Chen et al., 2022)仅聚焦于特定类型的隐变量(如潜在混淆变量),IRIS 的 MVP 组件则面向更一般的缺失变量类型
评分¶
- ⭐⭐⭐⭐⭐ 新颖性:首个从初始变量名出发完成全自动因果发现的端到端框架,"不需要表格数据"的范式创新显著
- ⭐⭐⭐⭐ 实验充分度:6 个数据集 + 3 个组件独立评估 + 消融实验 + 多 LLM(GPT-4o / GPT-3.5 / Llama)对比 + 配对 t 检验,覆盖全面
- ⭐⭐⭐⭐ 写作质量:问题定义清晰,方法流程图直观(Figure 1),每个组件都有独立的算法伪代码和数学形式化
- ⭐⭐⭐⭐ 实用价值:将因果发现门槛从"需要完整数据集"降低到"只需变量名",对生物医学、社会科学等领域研究者友好
- ⭐⭐⭐ 可复现性:高度依赖 Google Search API 和 GPT-4o,非开源模型 + 付费 API 的组合增加了复现难度