From Black-box to Causal-box: Towards Building More Interpretable Models¶

会议: NeurIPS 2025
arXiv: 2510.21998
代码: 待确认
领域: 因果推断 / 可解释AI
关键词: causal interpretability, counterfactual reasoning, concept-based models, structural causal models, interpretability-accuracy tradeoff

一句话总结¶

提出"因果可解释性"（causal interpretability）的形式化定义，证明黑盒模型和概念瓶颈模型均不满足该性质，给出完整的图判据确定哪些模型架构能一致地回答反事实问题，揭示了因果可解释性与预测精度之间的根本性权衡。

研究背景与动机¶

领域现状：可解释AI（XAI）方法如 LIME/SHAP/Grad-CAM 提供特征归因，概念瓶颈模型（CBM）通过人类可理解的概念（如"微笑"、"性别"）进行预测以提高可解释性。反事实推理被认为是通向真正可解释模型的关键路径。
现有痛点：现有方法无法保证反事实一致性——同一模型类中的不同模型，虽然在观测数据上完全一致，但对同一反事实问题可能给出完全相反的答案。例如两个概念瓶颈模型都预测一张脸"不吸引人"，但问"如果微笑了会怎样？"一个说会更吸引人，另一个说不会。
核心矛盾：用户无法分辨哪个模型的反事实回答可信，因为两个模型在观测数据层面无法区分。这本质上是因为模型类没有对反事实响应空间施加足够的约束。
本文要解决什么？ (1) 形式化什么条件下模型可以可靠地回答反事实问题；(2) 确定哪些模型架构满足这个条件；(3) 在满足条件的前提下最大化预测能力。
切入角度：从结构因果模型（SCM）出发，建立增强 SCM（ASCM）统一描述数据生成和模型预测过程，利用图结构分析反事实可识别性。
核心idea一句话：模型能否一致回答反事实问题取决于其预测特征集 \(\mathbf{T}\) 是否落在干预目标 \(\mathbf{W}\) 及其非后代 \(ND(\mathbf{W})\) 内。

方法详解¶

整体框架¶

建立理论框架：定义因果可解释性 → 证明黑盒/CBM不满足 → 提出图判据 → 找到最大可用特征集 → 给出反事实的闭式计算方法。输入是因果图中变量的后代关系，输出是模型应使用哪些特征来保持因果可解释性。

关键设计¶

增强结构因果模型 (ASCM, Definition 1):
做什么：统一建模图像生成和模型预测过程
核心思路：在生成级 SCM \(\mathcal{M}_0\)（描述潜在概念 \(\mathbf{V}\) 的因果关系）之上，加入图像生成 \(\mathbf{X} \leftarrow f_\mathbf{X}(\mathbf{V}, \mathbf{U_X})\) 和分类器 \(\hat{Y} \leftarrow f_{\hat{Y}}(\text{subset of } \{\mathbf{V}, \mathbf{X}\})\)
设计动机：将"模型如何预测"纳入因果框架，使得反事实分析能同时考虑数据生成和模型行为
因果可解释性定义 (Definition 2):
做什么：形式化"模型类能否一致回答反事实问题"
核心定义：模型类 \(\Omega'\) 关于查询 \(Q\) 是因果可解释的，当且仅当对所有 \(\mathcal{M}_1, \mathcal{M}_2 \in \Omega'\)，若它们的观测分布一致（\(P^{\mathcal{M}_1}(\mathbf{V}, \mathbf{X}, \hat{Y}) = P^{\mathcal{M}_2}(\mathbf{V}, \mathbf{X}, \hat{Y})\)），则它们的反事实量相同（\(Q^{\mathcal{M}_1} = Q^{\mathcal{M}_2}\)）
设计动机：直接抓住反事实可靠性的核心——同类模型在观测上不可区分时，反事实上也应不可区分
不可解释性结果 (Proposition 1 + Example 4):
黑盒模型永远不满足因果可解释性（Proposition 1）：因为 \(\hat{Y}\) 依赖 \(\mathbf{X}\)，而 \(\mathbf{X}\) 是所有变量的后代
概念瓶颈模型也不一定满足（Example 4）：当预测用的概念中包含干预目标的后代时，不同模型仍可能给出不同反事实答案
设计动机：打破"概念瓶颈模型天然可解释"的误解
图判据 (Theorem 1) 和最大可用集 (Theorem 2):
做什么：确定哪些特征集 \(\mathbf{T}\) 使模型因果可解释
核心结论：\(\Omega_{GCP(\mathbf{T})}\) 关于 \(Q(\mathbf{W})\) 因果可解释 当且仅当 \(\mathbf{T} \subseteq \mathbf{W} \cup ND(\mathbf{W})\)（\(\mathbf{T}\) 只能包含干预目标及其非后代）
最大可用集是唯一的：\(\text{Max-T-Ad}(\mathbf{W}_\star) = \cap_{\mathbf{W}_i \in \mathbf{W}_\star} (\mathbf{W}_i \cup ND(\mathbf{W}_i))\)
设计动机：最大化可用特征 = 最大化预测精度，同时保证因果可解释性。且只需知道干预目标的后代关系，无需完整因果图
反事实闭式计算 (Theorem 3):
\(P(\hat{Y}_{\mathbf{w}'} | \mathbf{x}) = \sum_\mathbf{t} P(\hat{Y} | \mathbf{w}' \cap \mathbf{T}, \mathbf{t} \setminus \mathbf{W}) P(\mathbf{t} | \mathbf{x})\)
从数据中计算只需两步：特征提取器 \(P(\mathbf{T}|\mathbf{X})\) + 分类器 \(P(\hat{Y}|\mathbf{T})\)，在干预目标上替换
可解释性-精度权衡 (Theorem 4):
特征越多预测越准，但可回答的反事实问题越少
想回答的反事实问题越多，可用特征越少，预测精度越低
这是一个根本性的信息论权衡

损失函数 / 训练策略¶

理论工作，无特定损失函数。实验中使用标准分类训练 GCP 模型。

实验关键数据¶

合成实验 (BarMNIST)¶

自定义 BarMNIST 数据集：特征 B(bar), D(digit), C(color)，其中 D→B 有因果关系。

特征集 \(\mathbf{T}\)	预测精度	Q(D) 反事实误差	因果可解释?
{B,D,C}	最高	高	否（B是D的后代）
{B,D}	次高	高	否
{D,C}	中	低	是（唯一最大可用集）
{D}	最低	低	是

真实数据 (CelebA)¶

预测吸引力，反事实问题"如果微笑了？" - 使用非后代特征集 {smiling, gender} 的模型能正确预测"微笑会提高吸引力"，与人类直觉一致 - 直接从观测数据通过 Theorem 3 的闭式公式计算

关键发现¶

Theorem 1 的图判据在实验中得到完美验证：不满足条件的模型确实给出不一致的反事实
最大可用集 {D,C} 在精度和可解释性之间取得最优平衡
精度-可解释性权衡是实实在在的：{B,D,C} 精度最高但反事实不可靠

亮点与洞察¶

概念瓶颈模型不天然可解释这个发现非常反直觉——研究者普遍认为用概念预测就是"可解释"的，但本文严格证明了反事实层面的不一致性
充要条件的图判据极其简洁优美：排除干预目标的后代即可。实际应用中只需知道少量因果关系（谁是谁的后代），不需要完整因果图
唯一最大可用集的存在性定理很强——不需要在多个候选间做选择，最优方案是确定的
实用价值：为构建真正可靠的可解释AI系统提供了理论指导——不是所有概念都该用，要根据想回答的反事实问题选择特征子集

局限性 / 可改进方向¶

假设因果图的后代关系已知，实际中可能需要从数据学习
目前仅处理分类任务上的反事实预测，更复杂的因果查询（如自然直接/间接效应）有待扩展
实验规模偏小（BarMNIST + CelebA），大规模复杂数据集上的验证不足
特征提取器 \(P(\mathbf{T}|\mathbf{X})\) 的准确性直接影响反事实估计质量，这一部分的误差未深入分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次形式化因果可解释性并给出完整理论框架
实验充分度: ⭐⭐⭐ 理论工作实验偏少，但合成+CelebA已验证关键结论
写作质量: ⭐⭐⭐⭐⭐ 定义-命题-定理的逻辑链非常清晰，例子直观易懂
价值: ⭐⭐⭐⭐⭐ 为可解释AI建立了因果理论基础，指导实际模型设计