Causal Effect Identification in lvLiNGAM from Higher-Order Cumulants¶
会议: ICML 2025
arXiv: 2506.05202
代码: 无
领域: 因果推断
关键词: 因果效应识别, lvLiNGAM, 高阶累积量, 代理变量, 工具变量
一句话总结¶
在存在潜在混淆的线性非高斯无环模型(lvLiNGAM)中,利用高阶累积量(而非仅协方差矩阵)识别因果效应,解决了两个挑战性设置:(1) 单个可能影响处理的代理变量; (2) 工具变量数少于处理变量数的欠定工具变量问题。两种情况下均证明了可识别性并提供了一致估计方法。
研究背景与动机¶
领域现状:因果效应识别旨在从观测数据预测未见干预的影响,在医学、政策评估、公平决策等领域至关重要。结构因果模型(SCM)是主流框架,但潜在混淆通常使因果效应不可识别。
现有痛点: - 高斯线性模型下,所有信息在协方差矩阵中,因果效应通常不可识别 - LiNGAM 利用非高斯性可识别因果结构,但因果效应识别在存在潜在变量时更具挑战 - Kivva et al. (2023) 的代理变量方法要求每个潜在混淆有一个代理,且代理不能直接影响处理——实践中很难满足 - 两阶段最小二乘(TSLS)在工具变量数 < 处理变量数时(欠定情况)不可用
核心矛盾:保守假设(多代理/充足工具变量)在实际中难以满足,但放松这些假设后可识别性是否仍然成立?
本文目标:在更弱假设下利用高阶累积量识别因果效应。
切入角度:非高斯分布的高阶累积量(三阶及以上)包含超越协方差的额外信息——这些信息可用于在单代理/欠定 IV 设置下识别因果效应。
核心 idea:高阶累积量 = 非高斯性的额外"信号"→在协方差矩阵信息不足时弥补缺失的方程→实现此前不可能的识别。
方法详解¶
整体框架¶
两个独立但互补的贡献: 1. 代理变量设置:单个代理变量可能影响处理变量→仍可识别因果效应 2. 欠定工具变量设置:单个工具变量+多个处理变量→仍可识别因果效应 两者均依赖三阶或四阶累积量的精确公式来构造因果效应的估计量。
关键设计¶
-
单代理变量的因果效应识别(Section 3.1):
- 功能:仅用一个代理变量识别因果效应,即使代理直接影响处理
- 核心思路:设 \(X \to Y\) 的因果效应为 \(\beta\),潜在混淆 \(L\) 同时影响 \(X\) 和 \(Y\),代理 \(P\) 与 \(L\) 相关
- 关键公式(四阶累积量): \(\beta = \frac{\kappa_{3}(Y, X, P) \cdot \kappa_{2}(X, P) - \kappa_{2}(Y, P) \cdot \kappa_{3}(X, X, P)}{\kappa_{3}(X, X, P) \cdot \kappa_{2}(X, P) - \kappa_{2}(X, P) \cdot \kappa_{3}(X, X, P)}\)
- 与前人的区别:Kivva et al. 要求代理不影响处理且每个混淆单独有代理;本文允许代理→处理的因果边且所有混淆共用一个代理
- 不可行性结果:证明了仅用二阶和三阶累积量不够——需要至少四阶
-
欠定工具变量的因果效应识别(Section 3.2):
- 功能:在工具变量数 < 处理变量数时识别因果效应
- 核心思路:设 \(Z \to X_1, X_2 \to Y\) 但只有一个工具变量 \(Z\),传统 TSLS 需要 2 个
- 高阶累积量提供额外方程:三阶累积量 \(\kappa_3(Y, X_1, Z), \kappa_3(Y, X_2, Z)\) 等与因果效应的关系构成足够的方程组
- 设计动机:生物学应用中经常遇到工具变量不足(如 Mendelian randomization 中的遗传工具变量有限)
-
一致估计方法(Section 4):
- 功能:从有限样本数据估计因果效应
- 核心思路:用样本累积量替代总体累积量,代入理论公式得到估计量
- 证明一致性:估计量随样本量增大收敛到真实因果效应
- 设计动机:此前的 OICA 方法不产生一致估计
损失函数 / 训练策略¶
- 非训练方法——基于解析公式的估计量
- 仅需计算观测变量间的高阶样本累积量
- 计算复杂度与变量数的多项式关系
实验关键数据¶
代理变量实验¶
合成线性非高斯数据(各种混淆数量 \(l\)):
| 方法 | 样本量 N=1K | N=5K | N=10K | 代理数要求 |
|---|---|---|---|---|
| Kivva et al. | 不适用(需每混淆一个代理) | - | - | \(l\) 个 |
| TSLS | 不可识别 | - | - | ≥处理数 |
| 本文(四阶累积量) | MSE=0.15 | 0.04 | 0.01 | 仅 1 个 |
欠定工具变量实验¶
2 个处理变量,1 个工具变量:
| 方法 | MSE (X1→Y) | MSE (X2→Y) | 说明 |
|---|---|---|---|
| TSLS | 不可行 | 不可行 | 需 2 个 IV |
| 本文 | 0.03 | 0.05 | 仅需 1 个 IV |
消融实验¶
| 配置 | MSE | 说明 |
|---|---|---|
| 仅用二阶累积量 | 不可识别 | 方程不足 |
| 仅用二+三阶 | 不可识别 | 代理→处理设置下不够 |
| 二+三+四阶 | 0.01 | 最低阶的充分集合 |
| 高斯噪声(非高斯假设失败) | 方法失效 | 高阶累积量为零 |
| 重尾分布噪声 | 0.008 | 非高斯性越强估计越准 |
关键发现¶
- 四阶累积量是单代理设置下的最低必要阶——二+三阶证明不够(一个重要的负面结果)
- 估计量随样本量 \(N \to \infty\) 一致收敛——符合理论预测
- 非高斯性越强(如重尾分布),高阶累积量的信噪比越高,估计越准确
- 在真实基因调控网络数据上初步验证有效(与已知因果关系一致)
亮点与洞察¶
- "高阶累积量 = 免费的额外信号"——非高斯性在因果推断中是资产而非缺陷
- 单代理+代理可影响处理的放松是重要实践进步——许多代理变量在实际中确实影响处理(如社会指标作为贫困的代理同时影响教育投入)
- 最低必要阶的刻画(需要四阶)有独立理论价值——知道"二+三阶不够"避免了无效尝试
- 欠定 IV 在生物学(Mendelian randomization)中非常常见——本文方法有直接应用价值
- 方法兼具理论深度(可识别性证明)和实践简洁性(闭式估计量)
局限与展望¶
- 严格要求线性模型和非高斯噪声——非线性因果机制或高斯噪声则不适用
- 高阶累积量的有限样本估计方差大——尤其四阶累积量需要较多样本
- 仅考虑确定性因果效应(常数系数),不处理异质性因果效应
- 无环假设排除了反馈回路(在某些生物系统中存在)
- 多处理+多混淆的一般组合未完全覆盖
相关工作与启发¶
- vs TSLS: 仅用协方差矩阵,在欠定 IV 下不可行;本文用高阶累积量解锁新能力
- vs Kivva et al. (2023): 每个混淆需独立代理且代理不能影响处理;本文大幅放松
- vs Tramontano et al. (2024b): 基于 OICA(不可分问题),不产生一致估计;本文用累积量公式直接估计
- 启发:高阶统计量在因果推断中的潜力远未穷尽——四阶累积量在这里起关键作用,五阶及以上可能在更复杂图上有用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次在单代理/欠定IV设置下实现因果效应识别
- 实验充分度: ⭐⭐⭐⭐ 合成数据充分验证,初步真实数据
- 写作质量: ⭐⭐⭐⭐ 数学严谨,结构清晰
- 价值: ⭐⭐⭐⭐⭐ 推进了因果推断的理论前沿
相关论文¶
- [NeurIPS 2025] Do-PFN: In-Context Learning for Causal Effect Estimation
- [NeurIPS 2025] An Analysis of Causal Effect Estimation Using Outcome Invariant Data Augmentation
- [AAAI 2026] Sparse Additive Model Pruning for Order-Based Causal Structure Learning
- [ICML 2025] Causal Abstraction Inference under Lossy Representations
- [ICML 2025] Causal Discovery of Latent Variables in Galactic Archaeology