From Black-box to Causal-box: Towards Building More Interpretable Models¶
会议: NeurIPS 2025
arXiv: 2510.21998
代码: 待确认
领域: 因果推断 / 可解释AI
关键词: causal interpretability, counterfactual reasoning, concept-based models, structural causal models, interpretability-accuracy tradeoff
一句话总结¶
提出"因果可解释性"(causal interpretability)的形式化定义,证明黑盒模型和概念瓶颈模型均不满足该性质,给出完整的图判据确定哪些模型架构能一致地回答反事实问题,揭示了因果可解释性与预测精度之间的根本性权衡。
研究背景与动机¶
- 领域现状:可解释AI(XAI)方法如 LIME/SHAP/Grad-CAM 提供特征归因,概念瓶颈模型(CBM)通过人类可理解的概念(如"微笑"、"性别")进行预测以提高可解释性。反事实推理被认为是通向真正可解释模型的关键路径。
- 现有痛点:现有方法无法保证反事实一致性——同一模型类中的不同模型,虽然在观测数据上完全一致,但对同一反事实问题可能给出完全相反的答案。例如两个概念瓶颈模型都预测一张脸"不吸引人",但问"如果微笑了会怎样?"一个说会更吸引人,另一个说不会。
- 核心矛盾:用户无法分辨哪个模型的反事实回答可信,因为两个模型在观测数据层面无法区分。这本质上是因为模型类没有对反事实响应空间施加足够的约束。
- 本文要解决什么? (1) 形式化什么条件下模型可以可靠地回答反事实问题;(2) 确定哪些模型架构满足这个条件;(3) 在满足条件的前提下最大化预测能力。
- 切入角度:从结构因果模型(SCM)出发,建立增强 SCM(ASCM)统一描述数据生成和模型预测过程,利用图结构分析反事实可识别性。
- 核心idea一句话:模型能否一致回答反事实问题取决于其预测特征集 \(\mathbf{T}\) 是否落在干预目标 \(\mathbf{W}\) 及其非后代 \(ND(\mathbf{W})\) 内。
方法详解¶
整体框架¶
建立理论框架:定义因果可解释性 → 证明黑盒/CBM不满足 → 提出图判据 → 找到最大可用特征集 → 给出反事实的闭式计算方法。输入是因果图中变量的后代关系,输出是模型应使用哪些特征来保持因果可解释性。
关键设计¶
- 增强结构因果模型 (ASCM, Definition 1):
- 做什么:统一建模图像生成和模型预测过程
- 核心思路:在生成级 SCM \(\mathcal{M}_0\)(描述潜在概念 \(\mathbf{V}\) 的因果关系)之上,加入图像生成 \(\mathbf{X} \leftarrow f_\mathbf{X}(\mathbf{V}, \mathbf{U_X})\) 和分类器 \(\hat{Y} \leftarrow f_{\hat{Y}}(\text{subset of } \{\mathbf{V}, \mathbf{X}\})\)
-
设计动机:将"模型如何预测"纳入因果框架,使得反事实分析能同时考虑数据生成和模型行为
-
因果可解释性定义 (Definition 2):
- 做什么:形式化"模型类能否一致回答反事实问题"
- 核心定义:模型类 \(\Omega'\) 关于查询 \(Q\) 是因果可解释的,当且仅当对所有 \(\mathcal{M}_1, \mathcal{M}_2 \in \Omega'\),若它们的观测分布一致(\(P^{\mathcal{M}_1}(\mathbf{V}, \mathbf{X}, \hat{Y}) = P^{\mathcal{M}_2}(\mathbf{V}, \mathbf{X}, \hat{Y})\)),则它们的反事实量相同(\(Q^{\mathcal{M}_1} = Q^{\mathcal{M}_2}\))
-
设计动机:直接抓住反事实可靠性的核心——同类模型在观测上不可区分时,反事实上也应不可区分
-
不可解释性结果 (Proposition 1 + Example 4):
- 黑盒模型永远不满足因果可解释性(Proposition 1):因为 \(\hat{Y}\) 依赖 \(\mathbf{X}\),而 \(\mathbf{X}\) 是所有变量的后代
- 概念瓶颈模型也不一定满足(Example 4):当预测用的概念中包含干预目标的后代时,不同模型仍可能给出不同反事实答案
-
设计动机:打破"概念瓶颈模型天然可解释"的误解
-
图判据 (Theorem 1) 和最大可用集 (Theorem 2):
- 做什么:确定哪些特征集 \(\mathbf{T}\) 使模型因果可解释
- 核心结论:\(\Omega_{GCP(\mathbf{T})}\) 关于 \(Q(\mathbf{W})\) 因果可解释 当且仅当 \(\mathbf{T} \subseteq \mathbf{W} \cup ND(\mathbf{W})\)(\(\mathbf{T}\) 只能包含干预目标及其非后代)
- 最大可用集是唯一的:\(\text{Max-T-Ad}(\mathbf{W}_\star) = \cap_{\mathbf{W}_i \in \mathbf{W}_\star} (\mathbf{W}_i \cup ND(\mathbf{W}_i))\)
-
设计动机:最大化可用特征 = 最大化预测精度,同时保证因果可解释性。且只需知道干预目标的后代关系,无需完整因果图
-
反事实闭式计算 (Theorem 3):
- \(P(\hat{Y}_{\mathbf{w}'} | \mathbf{x}) = \sum_\mathbf{t} P(\hat{Y} | \mathbf{w}' \cap \mathbf{T}, \mathbf{t} \setminus \mathbf{W}) P(\mathbf{t} | \mathbf{x})\)
-
从数据中计算只需两步:特征提取器 \(P(\mathbf{T}|\mathbf{X})\) + 分类器 \(P(\hat{Y}|\mathbf{T})\),在干预目标上替换
-
可解释性-精度权衡 (Theorem 4):
- 特征越多预测越准,但可回答的反事实问题越少
- 想回答的反事实问题越多,可用特征越少,预测精度越低
- 这是一个根本性的信息论权衡
损失函数 / 训练策略¶
理论工作,无特定损失函数。实验中使用标准分类训练 GCP 模型。
实验关键数据¶
合成实验 (BarMNIST)¶
自定义 BarMNIST 数据集:特征 B(bar), D(digit), C(color),其中 D→B 有因果关系。
| 特征集 \(\mathbf{T}\) | 预测精度 | Q(D) 反事实误差 | 因果可解释? |
|---|---|---|---|
| {B,D,C} | 最高 | 高 | 否(B是D的后代) |
| {B,D} | 次高 | 高 | 否 |
| {D,C} | 中 | 低 | 是(唯一最大可用集) |
| {D} | 最低 | 低 | 是 |
真实数据 (CelebA)¶
预测吸引力,反事实问题"如果微笑了?" - 使用非后代特征集 {smiling, gender} 的模型能正确预测"微笑会提高吸引力",与人类直觉一致 - 直接从观测数据通过 Theorem 3 的闭式公式计算
关键发现¶
- Theorem 1 的图判据在实验中得到完美验证:不满足条件的模型确实给出不一致的反事实
- 最大可用集 {D,C} 在精度和可解释性之间取得最优平衡
- 精度-可解释性权衡是实实在在的:{B,D,C} 精度最高但反事实不可靠
亮点与洞察¶
- 概念瓶颈模型不天然可解释这个发现非常反直觉——研究者普遍认为用概念预测就是"可解释"的,但本文严格证明了反事实层面的不一致性
- 充要条件的图判据极其简洁优美:排除干预目标的后代即可。实际应用中只需知道少量因果关系(谁是谁的后代),不需要完整因果图
- 唯一最大可用集的存在性定理很强——不需要在多个候选间做选择,最优方案是确定的
- 实用价值:为构建真正可靠的可解释AI系统提供了理论指导——不是所有概念都该用,要根据想回答的反事实问题选择特征子集
局限性 / 可改进方向¶
- 假设因果图的后代关系已知,实际中可能需要从数据学习
- 目前仅处理分类任务上的反事实预测,更复杂的因果查询(如自然直接/间接效应)有待扩展
- 实验规模偏小(BarMNIST + CelebA),大规模复杂数据集上的验证不足
- 特征提取器 \(P(\mathbf{T}|\mathbf{X})\) 的准确性直接影响反事实估计质量,这一部分的误差未深入分析
相关工作与启发¶
- vs LIME/SHAP: 这些方法提供特征归因但不能回答反事实问题;本文在更高层次上定义了可解释性
- vs 概念瓶颈模型 (CBM): CBM 认为用概念预测就是可解释,本文证明这不够,还需考虑因果结构
- vs 因果公平性: 本文的框架与算法公平中的反事实公平概念密切相关,可以用于评估模型对敏感特征的依赖
- vs Pearl 的因果层级: 本文工作位于层级3(反事实论reasoning),是XAI与因果推断的深层连接
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次形式化因果可解释性并给出完整理论框架
- 实验充分度: ⭐⭐⭐ 理论工作实验偏少,但合成+CelebA已验证关键结论
- 写作质量: ⭐⭐⭐⭐⭐ 定义-命题-定理的逻辑链非常清晰,例子直观易懂
- 价值: ⭐⭐⭐⭐⭐ 为可解释AI建立了因果理论基础,指导实际模型设计