Rethinking Explainable Machine Learning as Applied Statistics¶

会议: ICML2025
arXiv: 2402.02870
代码: 无（Position Paper，无代码实现）
领域: others / 可解释性 / XAI
关键词: Explainable ML, Applied Statistics, Post-hoc Explanations, SHAP, Interpretation

一句话总结¶

本文是一篇立场论文，提出可解释机器学习应被视为"高维函数的应用统计学"——解释算法本质上是函数的统计量（functionals），应当像传统统计量（如 p 值、置信区间）一样关注其解释（interpretation）问题，而非仅研究数学性质；当前文献最大的缺陷正是忽视了"解释算法的输出到底回答了哪个直觉问题"这一核心议题。

研究背景与动机¶

领域现状：可解释机器学习（XAI）过去十年发展迅速，涌现了大量事后解释算法（SHAP、LIME、Grad-CAM、LRP 等），以及围绕这些算法的数学分析、计算优化和用户研究。然而，该领域仍处于"前范式"(pre-paradigmatic) 阶段——对"什么是解释"、"什么是可解释性"等基本概念没有共识。

现有痛点： - 大量论文只关注解释算法的数学性质（如 Shapley 值的公理性、LIME 的灵敏度、计算复杂度），却很少讨论这些解释到底回答了什么现实世界的问题。 - 即使是传统统计中相对简单的统计量（如 p 值），在实际使用中也经常被误解和误用；而 XAI 中更复杂的解释输出，被误解的情况更加严重。 - 解释算法与公平性、鲁棒性等其他模型指标的关系尚不清晰。

核心矛盾：XAI 社区花大量精力研究解释算法的形式（form）——即数学定义和计算方法——却忽视了解释的解释（interpretation of explanations），即这些数学对象如何与人类关于真实世界的直觉问题联系起来。

本文目标 - 为 XAI 提供一个统一的概念框架，将其定位为"高维函数的应用统计学" - 明确区分解释算法的"数学形式"与"解释含义"两个层面 - 提出改进研究实践的具体建议

切入角度：作者观察到，传统应用统计学总结概率分布和数据集的高维信息，而 XAI 总结学习函数的高维信息，两者在结构上是类比的。应用统计学是成熟领域，可以借鉴其经验教训来改进 XAI 的研究范式。

核心 idea：解释算法 = 函数的统计量，XAI 的基础问题可以通过与应用统计学的类比来厘清和改进。

方法详解¶

整体框架¶

本文并非提出新算法，而是构建统一的概念框架。整体论证线索为：

输入：当前 XAI 领域中混乱的概念和研究实践 → 核心映射：将解释算法形式化为"函数的统计量"(statistics of functions) → 类比桥梁：建立 XAI 与应用统计学的系统类比 → 输出：关于解释(interpretation)的深入讨论 + 改进研究实践的建议

论证分为三大步骤： 1. 形式化定义"函数的统计量"，统一刻画所有事后解释算法（Section 2） 2. 建立 XAI 与应用统计学的系统类比（Section 3） 3. 深入讨论"统计量的解释"问题及其对 XAI 的启示（Section 4+）

关键设计¶

1. 三层统计量定义体系¶

作者构建了三个平行的形式化定义，展现 XAI 与传统统计的结构同构性：

概率分布的统计量 (Definition 2.1)：\(F: \mathcal{P}(\mathbb{R}^d) \to \mathbb{R}^k\)，将高维概率分布映射到低维向量。例如均值、中位数、分布矩等。
数据集的统计量 (Definition 2.2)：\(F: \mathbb{R}^{d \times m} \to \mathbb{R}^k\)，将 \(m\) 个 \(d\) 维数据点映射到低维向量。例如 p 值、F 统计量、可视化图表等。
函数的统计量 (Definition 2.3)：\(F: \mathcal{F}(\mathbb{R}^d) \times \mathcal{P}(\mathbb{R}^d) \times \mathbb{R}^d \to \mathbb{R}^k\)，将高维函数 \(f\)（加上分布 \(\mathcal{D}\) 和特定数据点 \(x\)）映射到低维向量。这就是解释算法的形式化。

设计动机：通过在同一数学框架内并列三者，清晰展示了 XAI 并非全新领域，而是统计学的自然延伸——只是被总结的对象从分布/数据集变成了函数。

2. 统一覆盖主流解释算法¶

作者展示 Definition 2.3 可以统一刻画几乎所有事后解释算法，包括 SHAP、LIME、Grad-CAM、LRP、反事实解释、扰动解释等。此外，泛化误差、公平性指标等也是"函数的统计量"，意味着解释、公平性度量、鲁棒性度量本质上都是同类对象，不应被人为割裂。

3. 两个关键洞察 (Insights)¶

Insight 1：事后解释算法是函数的统计量，无论它们是否对终端用户有用、是否满足某种目的、是否可解释。"是统计量"是客观数学事实，"有没有用"需要额外论证。这消解了 XAI 中"什么才算解释"的部分争议。
Insight 2：XAI 文献中很大一部分工作仅研究统计量的数学/计算性质（如 SHAP 的灵敏度、Shapley 值的高效计算），而不讨论这些统计量能回答什么现实世界的问题。这类似于统计学中只研究 estimator 的渐近性质，却不讨论其与科学问题的关系。

4. 解释 (Interpretation) 的哲学分析¶

作者明确区分两个层面： - (a) 数学形式与性质：解释算法的公式定义、公理性质、计算方法 - (b) 解释含义：该统计量如何与人类的直觉问题建立联系

人类对模型的直觉问题包括：模型如何做预测？是否可信？哪些特征重要？是否依赖了虚假关联？遗传变异如何影响疾病风险？碳定价对经济增长的影响？作者借用科学哲学中"直觉概念"(intuitive concepts) 的理论（Justus, 2012），指出从直觉问题到数学形式化的映射本身就是非平凡的，需要仔细论证。

核心建议¶

论文提出的改进研究实践的具体建议包括： - 解释算法应被设计为回答特定问题（如 Schut et al., 2023; Arditi et al., 2024） - 承认使用解释工具需要一定程度的专业知识，不应假设终端用户可以直接理解 - 重新审视基准数据集在 XAI 评价中的角色（Section 6） - 重视解释与公平性、鲁棒性度量的关系——它们都是函数的统计量

实验关键数据¶

框架对比分析¶

本文为立场论文，不含传统实验。以下总结论文的核心对比分析：

维度	应用统计学	可解释机器学习
被总结的对象	概率分布 / 数据集	学习到的函数 \(f\)
统计量形式	均值、p 值、置信区间等	SHAP、LIME、Grad-CAM 等
理论基础	成熟，有百年积淀	不成熟，处于前范式阶段
解释/误用问题	p 值被广泛误用（ASA 声明）	解释算法输出被频繁误解
研究重心	数学性质 + 解释 + 应用	偏重数学性质，解释讨论不足
专业门槛认知	认可统计需要专业训练	常假设终端用户可直接理解
基准评价	有成熟评价体系	基准数据集的使用方式存疑

XAI 文献研究类型分类¶

研究类型	示例	是否讨论解释含义	占比估计
数学性质分析	SHAP 灵敏度、LIME 在特定函数类的行为	通常不讨论	高
计算优化	Shapley 值高效近似算法	通常不讨论	高
公理性研究	Shapley 值的唯一性、效率公理	部分讨论	中
用户研究	面向终端用户的可用性测试	隐式涉及	低
面向问题的设计	为特定问题设计解释 (Schut et al., 2023)	直接讨论	极低

关键发现¶

最核心的问题被忽视：当前文献的最大缺陷是大多数论文不讨论其解释算法的"解释含义"——即该算法的输出到底回答了用户的哪个问题，以及为什么。
p 值的教训：即使是看似简单的 p 值，在应用中也被广泛误读（参见 ASA 2016 声明），说明即使定义清晰的统计量也面临解释困难。XAI 中更复杂的统计量面临的误解风险更大。
统一视角的价值：将解释、公平性、鲁棒性统一为"函数的统计量"，可以避免这些子领域之间的人为壁垒，促进交叉借鉴。
专业训练的必要性：使用 XAI 工具也需要适当培训，正如统计工具需要统计素养。

亮点与洞察¶

类比的力量：将 XAI 重新定位为应用统计学的分支，这一类比非常精妙。它不仅在形式上成立（函数统计量 vs 分布统计量的数学平行），还在实践层面提供了启发——应用统计学几百年积累的错误教训（如 p-hacking、Simpson's paradox 的误读）可以直接迁移为 XAI 的前车之鉴。
区分形式与解释：将 (a) 数学形式/性质与 (b) 解释含义清晰分离，是本文最核心的贡献。这一区分看似简单，但直击了 XAI 领域许多争论的根源——很多争论实质上混淆了"统计量本身的数学性质"和"统计量是否回答了有意义的问题"。
元研究视角可迁移：这种"从科学哲学角度审视整个研究领域"的方法论可以迁移到其他快速发展的 ML 子领域，如 LLM 对齐（什么是 alignment？形式化是否准确？）、AI 安全（安全指标是否真正度量了我们关心的安全性？）。
直觉概念的引入：借用 Justus (2012) 的哲学框架来讨论从直觉问题到形式化的映射，为 XAI 的概念基础提供了更坚实的哲学根基。

局限与展望¶

缺乏具体方法论：论文指出了"应该讨论解释含义"这一问题，但没有提供系统的方法论指南——研究者具体应该如何论证某个解释算法与特定直觉问题的对应关系？缺少可操作的评审清单或设计流程。
立场论文的固有局限：作为 Position Paper，没有实验验证。论文的核心主张（认识到类比 → 改进研究实践）是否真的能改善 XAI 研究的质量，尚无经验证据支持。
对机制可解释性的讨论不足：论文承认其重点是事后解释算法，仅在 Section 7 简要讨论了机制可解释性 (mechanistic interpretability)，但后者正在快速发展，且可能具有不同的认识论特征。
忽视了计算实践的约束：实际应用中，解释算法的选择往往受限于计算成本和可用性（如 SHAP 对大模型的计算开销），论文的讨论较为理想化，未充分考虑工程实践约束。
统一框架可能过度简化：将所有解释算法都归为同一形式虽然简洁，但可能遮蔽了不同解释算法之间的本质区别（如全局解释 vs 局部解释、模型无关 vs 模型特定）。

评分¶

新颖性: ⭐⭐⭐⭐ 将 XAI 重新定位为应用统计学的视角虽非全新（Fisher et al., 2019 有类似观察），但系统性的论证和"形式 vs 解释"的清晰区分具有原创价值
实验充分度: ⭐⭐⭐ 作为 Position Paper 无需实验，但若能包含案例分析（如对某个具体解释算法做 interpretation 讨论的示范）会更有说服力
写作质量: ⭐⭐⭐⭐⭐ 论证清晰、逻辑严密，数学定义简洁优雅，哲学讨论有深度但不晦涩
价值: ⭐⭐⭐⭐ 对 XAI 社区具有重要的方向性指导意义，尤其是"请讨论你的解释算法到底回答了什么问题"这一呼吁切中要害