Practical do-Shapley Explanations with Estimand-Agnostic Causal Inference¶

会议: NeurIPS 2025
arXiv: 2509.20211
代码: 待确认
领域: 因果推断 / 可解释性
关键词: Shapley值, 因果推断, do-SHAP, 结构因果模型, 可辨识性

一句话总结¶

提出 Estimand-Agnostic（EA）方法和 Frontier-Reducibility Algorithm（FRA）来高效计算因果 Shapley 值（do-SV），通过训练单个 SCM 学习观测分布即可回答任意可辨识的因果查询，并通过联盟约减将计算量降低约 90%。

研究背景与动机¶

领域现状：do-SHAP 将 Shapley 值与因果推断结合，用因果干预值 \(\nu(S) = E[Y|\text{do}(X_S = x_S)]\) 替代条件期望，消除了传统 SHAP 的虚假相关问题。但计算 do-SV 需要评估 \(2^{|X|}\) 个不同的因果查询。
现有痛点：现有 Estimand-Based（EB）方法需要为每个联盟 \(S\) 手动指定因果 estimand（如 backdoor/frontdoor 准则），然后分别建模——极不实用。对 \(K=10\) 个特征，需要处理 1024 个不同的因果查询，每个可能需要不同的 estimand。
核心矛盾：do-SV 的理论优越性（无虚假相关）与计算的不实用性之间的矛盾——联盟数指数增长，且每个联盟需要独立的因果推断。
本文要解决什么？ (a) 消除对每个联盟手动指定 estimand 的需要；(b) 减少需要计算的联盟数量。
切入角度：直接学习数据生成过程（SCM），一旦 SCM 拟合好，任何可辨识的因果查询都可以通过模拟 do 操作来回答，无需预先推导 estimand。同时利用图结构发现冗余联盟。
核心 idea 一句话：用单个 SCM 拟合观测分布实现estimand-agnostic 因果推断 + Frontier-Reducibility 算法约减联盟数 → 实用化 do-SHAP。

方法详解¶

整体框架¶

输入：因果图 \(G\)、观测数据 → Step 1: 训练 SCM（可选架构：线性/DCN/DCG/CNF）拟合 \(\mathcal{P}(V)\) → Step 2: Frontier-Reducibility 算法将 \(2^K\) 个联盟约减为不可约子集 → Step 3: 对每个不可约联盟，通过 SCM 模拟 do 操作计算 \(\nu(S)\)，缓存结果 → Step 4: 聚合 Shapley 值

关键设计¶

Estimand-Agnostic (EA) 因果查询:
做什么：训练单个 SCM 来回答任意因果查询，无需为每个联盟推导 estimand
核心思路：SCM 学习每个变量的生成机制 \(V_i = f_i(\text{Pa}_i, U_i)\)。做 do 干预时直接将目标变量 \(X_S\) 固定为观测值，从噪声先验中采样 \(U\)，按拓扑序逐步生成非干预变量。最终 \(E[Y|\text{do}(x_S)]\) 通过 Monte Carlo 估计
设计动机：EB 方法需要为每个可辨识查询推导单独的统计 estimand，在联盟数指数增长时不可行。EA 方法训练一次 SCM 即可回答所有查询
Frontier-Reducibility Algorithm (FRA):
做什么：识别产生相同因果效应的联盟，减少重复计算
核心思路：对联盟 \(S\)，检查是否存在可约子集 \(S' \subset S\) 使得 \(\nu(S) = \nu(S')\)。约减条件：\(S\) 中后面的变量（在拓扑序上）阻断了前面变量到 \(Y\) 的所有路径。用"frontier"概念——\(S\) 中距离 \(Y\) 最近的变量层形成不可约核
设计动机：在稀疏因果图中，很多联盟是冗余的（~90% 可约减）。FRA 的计算开销极小（\(K=100\) 时仅 8 秒），但可大幅减少因果查询次数
多种 SCM 架构支持:
做什么：支持线性模型、深度因果网络（DCN）、连续归一化流（CNF）等
核心思路：线性 SCM 用于验证理论正确性，DCN/DCG 用于非线性场景，CNF 用于处理连续变量和复杂分布
设计动机：不同数据场景需要不同的 SCM 表达能力，框架需要灵活

损失函数 / 训练策略¶

SCM 训练：最大化观测数据的似然 \(\mathcal{P}(V)\)
支持 Markovian（无隐变量）和 Semi-Markovian（有隐变量）因果图
半 Markovian 情况需要更复杂的 SCM 来建模隐变量

实验关键数据¶

主实验¶

数据集	设置	EA 方法误差	EB 方法误差	FRA 加速
合成 (Markovian)	线性 SCM	~0.01 MSE	—	~90% 联盟约减
合成 (Semi-Markovian)	DCN	~0.03 MSE	~0.02 MSE	~85% 约减
Adult Income	DCG	可计算	需手动推导	显著加速
Earthquake	CNF	可计算	—	—

效率对比¶

方法	\(K=100\) 时间
do-SHAP (无缓存)	26m01s
do-SHAP + FRA 缓存	21m14s
FRA 约减计算	~8s

关键发现¶

EA 方法在 Markovian 设置下精度与 EB 方法相当，但无需为每个联盟推导 estimand
FRA 在稀疏图上约减效果最好（~90%），在所有变量都是 \(Y\) 的父节点时无效
SCM 的训练误差会传播到 do-SV 估计，但在足够数据下影响可控
与 observational SHAP 对比，do-SHAP 能正确识别虚假相关变量（如 collider bias）

亮点与洞察¶

Estimand-Agnostic 范式优雅：把"推导 estimand"这个因果推断中最难的步骤完全绕过，只需拟合 SCM。这在联盟数指数增长时是唯一可行的方案
FRA 的图论思想巧妙：利用因果图的结构信息（拓扑序、路径阻断）发现计算冗余，成本极低但收益巨大
do-SHAP 的实用化扫清了障碍：从"理论上正确但不可计算"到"可以在真实数据上运行"

局限性 / 可改进方向¶

需要已知的因果图——实际中因果发现算法可能有误，误差会传播
EA 方法没有 doubly-robust 保证（EB 的 estimand 方法可以有）
SCM 训练质量直接影响 do-SV 估计精度
大规模变量（\(K \gg 100\)）时仍面临组合爆炸（FRA 只是常数因子改善）

评分¶

新颖性: ⭐⭐⭐⭐ EA + FRA 的组合使 do-SHAP 首次实用化
实验充分度: ⭐⭐⭐⭐ 合成 + 真实数据集，多种 SCM 架构，但规模受限
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述系统
价值: ⭐⭐⭐⭐⭐ 将 do-SHAP 从理论概念推向实际可部署的因果解释工具

补充技术细节¶

SCM 训练使用 30 个不同随机种子验证估计稳定性
Feature Importance 计算：\(FI_X = \frac{1}{N}\sum_{i\in[N]}|\phi_X^{(i)}|/\sum_{X'\in X}|\phi_{X'}^{(i)}|\)
Semi-Markovian 实验（含隐变量 \(U_{X,B}\)）同样验证了 EA 方法的有效性
两个真实数据集：CDC 糖尿病健康指标 + 共享单车使用预测
FRA 缓存的 Frontier 检查复杂度随联盟大小线性增长而非指数增长
价值: ⭐⭐⭐⭐ 为因果可解释 AI 提供了实用工具