IRIS: An Iterative and Integrated Framework for Verifiable Causal Discovery¶

会议: ACL 2025
arXiv: 2510.09217
代码: https://github.com/WilliamsToTo/iris
机构: Monash University, Microsoft Research India
领域: 因果推理
关键词: causal discovery, LLM, hybrid method, missing variable proposal, iterative framework, value extraction

一句话总结¶

提出 IRIS 框架——仅需一组初始变量名作为输入，即可自动检索文档、提取变量值构建结构化数据、通过混合因果发现（GES 统计算法 + LLM 因果关系验证）构建因果图，并通过缺失变量提议组件迭代扩展变量集合，放松了传统方法的无环和因果充分性假设，在 Cancer、Diabetes、Obesity、ADNI、Insurance 等 6 个数据集上 F1 全面超越 0-shot/CoT/RAG 基线。

研究背景与动机¶

统计因果发现依赖高质量表格数据：PC、GES、NOTEARS 等传统算法需预先收集结构化观测数据，获取成本高、周期长。在生物学、经济学、医疗健康等领域，高质量的因果发现数据往往需要大量人力物力，极大限制了因果发现在 NLP 等领域的落地应用
LLM 只能复述训练数据中的已知关系：LLM-based 方法（如 Pairwise-LLM、BFS-LLM）擅长识别训练数据中高频出现的因果关系（如"吸烟→肺癌"），但 Zečević et al. (2023) 和 Feng et al. (2024b) 的实证研究表明，LLM 在发现训练数据中罕见或未曾记录的新因果关系时表现不佳，本质上是"因果鹦鹉"(causal parrots)——依赖记忆而非推理
统计方法的假设过于理想化：大多数算法要求因果充分性假设（无隐变量/不可观测变量）和无环性假设（因果图中无环路），但现实世界广泛存在反馈循环，如贫困循环（poverty → limited education → low-paying jobs → poverty）和捕食者-猎物循环（predator increase → prey decrease → predator decrease），这些假设与真实场景严重脱节
变量集合需预定义且不可扩展：统计算法要求输入预定义的随机变量集合，无法在发现过程中自动识别可能遗漏的重要变量。例如研究癌症时，如果初始变量中未包含"空气污染"，传统方法永远无法发现它的因果作用
LLM 因果预测缺乏验证机制：统计方法有严格的数学可验证性（如条件独立性检验），而 LLM 的因果判断缺乏透明的验证手段，输出的可信度难以量化
两类方法的互补潜力尚未充分挖掘：统计方法能从数据中发现新的、未知的关系但需要结构化数据；LLM 能利用预训练知识识别已知关系但不需要数据。IRIS 试图结合两者优势——统计方法提供发现能力，LLM 提供知识验证能力

方法详解¶

整体框架¶

IRIS（Iterative Retrieval and Integrated System for Real-Time Causal Discovery）由四个核心组件按流水线连接：文档检索与变量值提取 → 混合因果发现（统计分支 + LLM 验证分支 → 图合并）→ 缺失变量提议 → 迭代扩展。整个流程的输入仅需初始变量集 \(\mathbb{Z}=\{z_1, z_2, \ldots, z_N\}\)（例如 {smoking, cancer, pollution, diet}），最终输出扩展因果图 \(\mathcal{G}=(\mathbb{Z}_m, \mathbb{R})\)，其中 \(\mathbb{Z}_m\) 包含初始变量与新发现变量，\(\mathbb{R}\) 为所有因果关系边。

组件一：文档检索与变量值提取¶

目标：从变量名出发，自动收集相关文档并提取变量值，构建结构化表格数据 \(\mathbb{X}\)（行=文档，列=变量）
文档检索：通过 Google Search API 使用逐步去除策略（stepwise removal）构造查询。先用所有变量名的 AND 组合（如 "smoking" AND "cancer" AND "pollution"），逐步减少变量数量，最终到单变量查询。多变量查询的检索配额 \(k\) 设置更高以确保文档与多数变量相关。同时使用变量同义词增强覆盖率，检索持续到总文档数达预设阈值
变量值提取：对每篇文档 \(d_i\) 和每个变量 \(z_j\)，设计包含变量描述（名称 + 值含义）的 prompt \(l\)，引导 LLM 按多步思维链推理提取值：\(o_{ij} = \bm{M}(l(d_i, z_j))\)。最终构建的表格 \(\mathbb{X}\) 中每个元素 \(v_{ij}\) 为变量 \(z_j\) 在文档 \(d_i\) 中的值
设计考量：多变量组合查询优先确保文档与所有变量相关，逐步降级保证每个变量都有足够覆盖；LLM 提取替代人工标注大幅降低数据收集成本

组件二：混合因果发现¶

统计分支：对结构化数据 \(\mathbb{X}\) 运行统计因果发现算法（PC / GES / NOTEARS），通过条件独立性检验等统计方法发现因果关系，输出因果图 \(\hat{\mathcal{G}_s}\)。实验中 GES 平均表现最优
LLM 验证分支：将每对变量的潜在因果关系构造为 claim（如"smoking causes lung cancer"），在限定的 7 个学术网站域（jstor.org, springer.com, ieee.org, ncbi.nlm.nih.gov, sciencedirect.com, scholar.google.com, arxiv.org）中检索含因果双方术语的证据文档。LLM 对每篇文档判断支持(support) / 反驳(refute) / 无关(not related)。若多数文档支持则纳入因果图 \(\hat{\mathcal{G}_v}\)
图合并：以统计图 \(\hat{\mathcal{G}_s}\) 为基础，加入 \(\hat{\mathcal{G}_v}\) 中高置信度关系，移除被学术文献强烈反驳的关系。合并策略的两个理由：(1) 结构化数据 \(\mathbb{X}\) 可能有噪声；(2) 被可信学术文献广泛支持/反驳的关系可视为已知知识。混合策略天然允许因果图中存在环路

组件三：缺失变量提议（MVP）¶

变量抽象：LLM 分析每篇检索文档的内容，识别可能影响初始变量或被初始变量影响的新变量候选
双重筛选机制：
因果关系验证（VCR）：对每个候选新变量，用§3.3 的方法在学术网站检索证据，验证其与初始变量的因果关系
统计度量（PMI）：通过 Google Search API 获取文档共现计数，计算逐点互信息 \(PMI(z_i, z_j) = \log \frac{o(z_i, z_j)}{o(z_i) \cdot o(z_j)}\)，取聚合 PMI 分数最高的 top-\(k\) 变量纳入 \(\mathbb{Z}_m\)
迭代扩展：将 \(\mathbb{Z}_m\) 中新变量加入原变量集，重新执行数据收集→值提取→因果发现流程，使因果图持续增长

实验¶

表1：完整框架在 6 个数据集上的评估（Precision / Recall / F1↑ / NHD Ratio↓）¶

方法	Cancer	Resp. Disease	Diabetes	Obesity	ADNI	Insurance
0-shot	0.64/0.32/0.43/0.57	0.67/0.36/0.47/0.53	0.70/0.46/0.56/0.45	0.57/0.33/0.42/0.58	0.47/0.29/0.36/0.64	0.35/0.38/0.36/0.65
CoT	0.67/0.38/0.48/0.54	0.64/0.40/0.49/0.51	0.66/0.48/0.55/0.46	0.59/0.38/0.46/0.54	0.46/0.31/0.37/0.62	0.41/0.38/0.39/0.61
RAG	0.70/0.44/0.54/0.49	0.64/0.45/0.53/0.47	0.73/0.47/0.57/0.43	0.62/0.45/0.52/0.49	0.50/0.34/0.40/0.60	0.44/0.40/0.42/0.57
IRIS	0.89/0.57/0.70/0.30	0.67/0.55/0.60/0.40	0.76/0.50/0.60/0.39	0.67/0.58/0.62/0.38	0.50/0.36/0.42/0.58	0.61/0.46/0.53/0.47

配对 t 检验确认 IRIS 与基线差异在 F1 和 NHD Ratio 上均统计显著（\(p \leq 0.05\)）。Insurance 数据集从 27 个初始变量扩展到 35 个变量 67 条边，展示了 IRIS 的可扩展性。IRIS 的核心优势体现在 recall 上——所有基线在 precision 上有时可接近 IRIS，但 recall 无一能匹敌，说明混合策略确实能发现更多真实的因果关系。

表2：变量值提取组件评估（Precision / Recall / F1）¶

方法	AppleGastronome	Neuropathic
COAT (GPT-4o)	0.74 / 0.76 / 0.75	0.72 / 0.80 / 0.79
IRIS (Llama-3.1-8b)	0.71 / 0.72 / 0.71	0.76 / 0.82 / 0.79
IRIS (GPT-3.5)	0.75 / 0.77 / 0.76	0.71 / 0.89 / 0.79
IRIS (GPT-4o)	0.79 / 0.82 / 0.79	0.73 / 1.00 / 0.84

在相同 LLM（GPT-4o）下，IRIS 的值提取方法优于 COAT，且性能随 LLM 能力提升（Llama→GPT-3.5→GPT-4o）稳定增长。Neuropathic 上 GPT-4o 达到 100% recall。二值变量（Neuropathic, 0/1）比三值变量（AppleGastronome, -1/0/1）更容易提取。

表3：缺失变量提议（MVP）成功率¶

方法	Cancer	Resp.	Diabetes	Obesity	ADNI	Insurance
0-shot	0.40	0.25	0.50	0.25	0.25	0.22
CoT	0.40	0.50	0.50	0.75	0.25	0.30
RAG	0.60	0.75	0.75	0.75	0.38	0.41
MVP (完整)	0.80	0.75	1.00	1.00	0.50	0.59
− VCR	0.60	0.75	0.50	0.75	0.25	0.48
− Stats	0.60	0.75	0.75	1.00	0.38	0.52
↔ Llama	0.40	0.50	0.25	0.50	0.13	0.45

通过模拟缺失变量的方式评估：从完整因果图中依次移除每个变量，检查 MVP 能否在提议变量集中找回被移除的变量。Diabetes 和 Obesity 达到 100% 成功率。

关键发现¶

混合方法全面优于单一方法：统计方法发现新关系，LLM 验证已知关系，互补后 IRIS 在 Cancer 上 F1 从 RAG 的 0.54 提升到 0.70，NHD Ratio 从 0.49 降至 0.30
IRIS 的优势主要体现在 recall：基线方法（尤其是 RAG）有时在 precision 上接近 IRIS，但 recall 全面落后。这证实混合策略能发现更多真实因果边
统计算法没有"万能钥匙"：GES 平均最优（比 PC 高 0.09 F1），但 NOTEARS 在 Diabetes/Obesity 上完全失败（F1=0, NHD=1），算法选择需因数据特征而异
MVP 双重筛选缺一不可：去掉 VCR 导致 Diabetes 成功率从 1.00 降至 0.50，去掉 Stats 导致 ADNI 从 0.50 降至 0.38，验证了两种信号的互补性
GPT-4o 在专业知识密集任务上远超 Llama：ADNI 数据集差距尤为显著（MVP 成功率 0.50 vs 0.13），因阿尔茨海默病相关知识在小模型训练数据中极度稀缺
框架可扩展性强：从 4 个变量（Cancer）到 27 个变量（Insurance）均有效，Insurance 最终扩展至 35 变量 67 边

亮点¶

"仅需变量名"的范式转变：传统因果发现需预收集高质量表格数据，IRIS 将输入简化为一组变量名列表，全流程（检索→提取→发现→扩展）自动化，将因果发现的门槛从"数据科学家+领域专家"降低到"任何能给出变量名的研究者"
限定学术搜索域确保文献验证可信——jstor, springer, ieee, ncbi, sciencedirect, scholar.google, arxiv 共 7 个权威学术网站，实现简单但效果显著的质量控制
迭代扩展机制使因果图从核心变量逐步增长，适合探索性研究场景——研究者可以从少量已知变量出发，让系统自动发现"未知的未知"
混合策略天然兼容环路：因果图不再受制于传统方法的无环假设，能表达贫困循环、捕食者-猎物循环等真实世界的反馈机制
每个组件都有独立的数学形式化和实验验证，避免了端到端黑箱——值提取、因果发现、变量提议各自有基线对比和消融实验

局限性¶

计算开销大：LLM 查询次数随变量数 \(N\) 呈 \(O(N^2)\) 增长（需检查所有变量对），平均运行约 15 小时（约为 zero-shot 的 3 倍）。虽然论文指出所有 LLM 查询可并行化，但实际 API 成本和延迟仍不容忽视
依赖商业服务：Google Search API（文档检索 + PMI 计数）和 GPT-4o（值提取 + 关系验证 + 变量抽象）为不可替代的核心组件，可复现性受限于 API 稳定性和费用
LLM 提取的变量值存在噪声：特别是三值分类（-1/0/1）比二值更容易出错（AppleGastronome F1=0.79 vs Neuropathic F1=0.84），噪声会传导至统计因果发现分支
检索文档的覆盖偏差：Google Search 返回的文档倾向于高频、主流话题，对冷门领域的因果关系可能覆盖不足
复杂领域性能仍有瓶颈：ADNI（阿尔茨海默病）整体 F1 仅 0.42，说明在专业知识密集场景中，当前方法仍难以高效发现和验证因果关系
LLM 推理的能耗与环境影响：论文承认了这一问题但未给出解决方案

评分¶

⭐⭐⭐⭐⭐ 新颖性：首个从初始变量名出发完成全自动因果发现的端到端框架，"不需要表格数据"的范式创新显著
⭐⭐⭐⭐ 实验充分度：6 个数据集 + 3 个组件独立评估 + 消融实验 + 多 LLM（GPT-4o / GPT-3.5 / Llama）对比 + 配对 t 检验，覆盖全面
⭐⭐⭐⭐ 写作质量：问题定义清晰，方法流程图直观（Figure 1），每个组件都有独立的算法伪代码和数学形式化
⭐⭐⭐⭐ 实用价值：将因果发现门槛从"需要完整数据集"降低到"只需变量名"，对生物医学、社会科学等领域研究者友好
⭐⭐⭐ 可复现性：高度依赖 Google Search API 和 GPT-4o，非开源模型 + 付费 API 的组合增加了复现难度