Exogenous Isomorphism for Counterfactual Identifiability¶
会议: ICML2025
arXiv: 2505.02212
代码: cyisk/tmscm
领域: 因果推断 (Causal Inference)
关键词: 反事实可辨识性, Pearl因果层级, 外生同构, 结构因果模型, 三角单调SCM
一句话总结¶
提出外生同构(Exogenous Isomorphism, EI)概念,证明 \(\sim_{\mathrm{EI}}\)-identifiability 蕴含 \(\sim_{\mathcal{L}_3}\)-identifiability(完整反事实层可辨识性),并在双射SCM和三角单调SCM两类特殊模型上给出实现EI的充分条件,统一并推广了已有反事实可辨识性理论。
研究背景与动机¶
- 反事实推理是Pearl因果层级(PCH)的最高层 \(\mathcal{L}_3\),编码了SCM的全部因果信息
- 已有工作要么只识别特定反事实效应(结构约束),要么只识别反事实结果(机制约束),缺乏对整个反事实层的统一识别框架
- \(\mathcal{L}_3\)-identifiability 要求满足假设的所有SCM对任意反事实陈述给出一致答案,是PCH框架内因果可辨识性的终极目标
- 直接从PCH定义出发处理 \(\sim_{\mathcal{L}_3}\) 非常困难,而完全恢复外生变量(\(=\)-identifiability)的假设又过强
- 核心动机:寻找比"完全恢复模型"弱、但仍蕴含完整反事实一致性的中间概念
方法详解¶
框架总览¶
- 以模型可辨识性视角统一因果可辨识性问题
- 提出外生同构(EI)作为连接模型等价与反事实一致性的桥梁
- 在双射SCM(BSCM)和三角单调SCM(TM-SCM)两类模型上分别给出EI的充分条件
- 用神经TM-SCM实现实际反事实推断
核心概念:外生同构¶
定义:两个递归SCM \(\mathcal{M}^{(1)}\) 和 \(\mathcal{M}^{(2)}\) 外生同构(\(\sim_{\mathrm{EI}}\)),如果存在共享因果序和分量双射 \(\mathbf{h} = (h_i)_{i \in \mathcal{I}}\),满足:
- 分量双射:每个 \(h_i: \Omega_{U_i}^{(1)} \to \Omega_{U_i}^{(2)}\) 是双射
- 外生分布同构:\(P_{\mathbf{U}}^{(2)} = \mathbf{h}_{\sharp} P_{\mathbf{U}}^{(1)}\)
- 因果机制同构:\(f_i^{(2)}(\mathbf{v}, h_i(u_i^{(1)})) = f_i^{(1)}(\mathbf{v}, u_i^{(1)})\)
核心定理 (Theorem 3.2):\(\sim_{\mathrm{EI}}\) 蕴含 \(\sim_{\mathcal{L}_3}\),即外生同构的两个SCM对所有反事实陈述给出一致结果。
双射SCM (BSCM) 上的EI¶
- BSCM定义:解映射 \(\Gamma\) 是双射,等价于每个 \(f_i(\mathbf{v}, \cdot)\) 对固定 \(\mathbf{v}\) 是双射
- 反事实传输(Counterfactual Transport):定义 \(K_{\mathcal{M},i}(\cdot, \mathbf{v}, \mathbf{v}') = (f_i(\mathbf{v}', \cdot)) \circ (f_i(\mathbf{v}, \cdot))^{-1}\)
- Markov BSCM下反事实传输即条件分布间的传输映射
- Theorem 4.6:已知BSCM + 因果序 + 观测分布 + 反事实传输 → \(\sim_{\mathrm{EI}}\)-identifiable
- Theorem 4.8:若反事实传输恰好是KR传输,则只需BSCM + 因果序 + Markov + 观测分布
三角单调SCM (TM-SCM) 上的EI¶
- TM映射:三角映射且每个分量对最后一个变量严格单调
- TM-SCM定义:解映射经过向量化重排后是TM映射
- 关键性质:TM映射的复合、求逆仍保持TM性质;两个相同单调签名的TM映射复合后为TMI映射
- Corollary 5.4(核心推论):TM-SCM + 因果序 + Markov + 观测分布 → \(\sim_{\mathrm{EI}}\)-identifiable
这一推论统一了 Lu et al. 2020, Nasr-Esfahany et al. 2023, Scetbon et al. 2024 的结果。
损失函数与训练¶
神经TM-SCM采用最大似然估计,损失为负对数似然(NLL):
外生分布用无约束 normalizing flow (MAF) 建模,满足 Markov 独立性。
四种神经TM-SCM原型¶
| 原型 | 机制形式 | 代表工作 |
|---|---|---|
| DNME | 对角噪声:\(f_{i,\theta} = \mathbf{b} + \mathbf{a} \odot \mathbf{u}_i\) | LSNM |
| TNME | 三角噪声:\(f_{i,\theta} = \mathbf{b} + \mathbf{A} \mathbf{u}_i^\intercal\) | FiP |
| CMSM | 解映射=多个TM映射复合 | CausalNF |
| TVSM | 解映射由三角速度场ODE定义 | CFM |
实验关键数据¶
合成数据集¶
| 数据集 | 描述 |
|---|---|
| TM-SCM-Sym | 4个小数据集(Barbell, Stair, Fork, Backdoor),≤4因果变量 |
实验使用合成数据集验证神经TM-SCM在反事实一致性问题上的有效性: - 仅用观测分布样本训练,在反事实测试集上验证一致性 - 四种原型模型均能有效学习并给出与真实SCM一致的反事实结果
主要发现¶
- 验证了 Corollary 5.4 的理论正确性:TM-SCM类模型在满足假设时确实实现 \(\mathcal{L}_3\)-一致性
- 不同原型(DNME, TNME, CMSM, TVSM)在表达力和效率上各有权衡
- 外生分布的具体实现不影响可辨识性(与理论预测一致)
亮点与洞察¶
- EI概念精准定位:在"完全恢复模型"和"反事实一致性"之间找到恰当的等价关系,精确刻画了实现完整反事实可辨识性所需的模型识别强度
- 统一已有理论:Corollary 5.4 将 Lu, Nasr-Esfahany, Scetbon 三组工作统一为一个推论的特例
- 从标量推广到向量:将内生变量空间从 \(\mathbb{R}\) 推广到 \(\mathbb{R}^{d_i}\),支持更广泛的SCM类
- 反事实传输的新视角:将反事实可辨识性与最优传输理论建立联系,提供全新解读
- 理论到实践的完整路径:从抽象等价类到具体神经网络实现,完成理论保障下的落地
局限与展望¶
- TM-SCM假设较强:要求因果机制严格单调,排除了许多现实中常见的非单调关系
- 因果序需已知:所有理论结果都依赖于已知因果序,但因果发现本身就是困难问题
- 仅考虑递归SCM:未讨论非递归(含因果环)SCM的情况
- 合成数据验证:实验仅在合成数据上进行,尚未验证在真实数据(如医学、公平性场景)的效果
- \(\sim_{\mathrm{EI}}\) 与 \(\sim_{\mathcal{L}_3}\) 的间隙:EI是 \(\mathcal{L}_3\)-一致的充分非必要条件,是否存在更弱但仍充分的条件尚不清楚
相关工作与启发¶
- 反事实等价:Peters et al. 2017 定义的counterfactual equivalence要求外生分布完全相同,比EI更强
- BGM等价:Nasr-Esfahany et al. 2023 在BSCM框架内定义的等价关系,是EI的特例
- CausalNF:Javaloy et al. 2023 建立TMI映射的表示可辨识性,本文将其推广到完整反事实层
- 最优传输:KR传输提供了一种规范的反事实传输构造,且与TMI映射间存在深刻联系(Lemma 5.1)
- 可启发方向:将EI推广到半Markov SCM、带隐变量的因果表示学习
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 外生同构概念新颖,精准定位了可辨识性的"最佳中间层"
- 实验充分度: ⭐⭐⭐ — 仅合成数据,规模较小
- 写作质量: ⭐⭐⭐⭐ — 数学严谨,但符号密度极高,门槛陡峭
- 价值: ⭐⭐⭐⭐⭐ — 统一并推广了因果推断中反事实可辨识性的核心理论
相关论文¶
- [ICML 2025] Transformer-Based Spatial-Temporal Counterfactual Outcomes Estimation
- [ICML 2025] Classifier Reconstruction Through Counterfactual-Aware Wasserstein Prototypes
- [ACL 2025] Counterfactual Explanations for Aspect-Based Sentiment Analysis
- [NeurIPS 2025] Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models
- [NeurIPS 2025] Few-Shot Knowledge Distillation of LLMs With Counterfactual Explanations