Rethinking Explainable Machine Learning as Applied Statistics¶
会议: ICML2025
arXiv: 2402.02870
代码: 无(Position Paper,无代码实现)
领域: others / 可解释性 / XAI
关键词: Explainable ML, Applied Statistics, Post-hoc Explanations, SHAP, Interpretation
一句话总结¶
本文是一篇立场论文,提出可解释机器学习应被视为"高维函数的应用统计学"——解释算法本质上是函数的统计量(functionals),应当像传统统计量(如 p 值、置信区间)一样关注其解释(interpretation)问题,而非仅研究数学性质;当前文献最大的缺陷正是忽视了"解释算法的输出到底回答了哪个直觉问题"这一核心议题。
研究背景与动机¶
领域现状:可解释机器学习(XAI)过去十年发展迅速,涌现了大量事后解释算法(SHAP、LIME、Grad-CAM、LRP 等),以及围绕这些算法的数学分析、计算优化和用户研究。然而,该领域仍处于"前范式"(pre-paradigmatic) 阶段——对"什么是解释"、"什么是可解释性"等基本概念没有共识。
现有痛点: - 大量论文只关注解释算法的数学性质(如 Shapley 值的公理性、LIME 的灵敏度、计算复杂度),却很少讨论这些解释到底回答了什么现实世界的问题。 - 即使是传统统计中相对简单的统计量(如 p 值),在实际使用中也经常被误解和误用;而 XAI 中更复杂的解释输出,被误解的情况更加严重。 - 解释算法与公平性、鲁棒性等其他模型指标的关系尚不清晰。
核心矛盾:XAI 社区花大量精力研究解释算法的形式(form)——即数学定义和计算方法——却忽视了解释的解释(interpretation of explanations),即这些数学对象如何与人类关于真实世界的直觉问题联系起来。
本文目标 - 为 XAI 提供一个统一的概念框架,将其定位为"高维函数的应用统计学" - 明确区分解释算法的"数学形式"与"解释含义"两个层面 - 提出改进研究实践的具体建议
切入角度:作者观察到,传统应用统计学总结概率分布和数据集的高维信息,而 XAI 总结学习函数的高维信息,两者在结构上是类比的。应用统计学是成熟领域,可以借鉴其经验教训来改进 XAI 的研究范式。
核心 idea:解释算法 = 函数的统计量,XAI 的基础问题可以通过与应用统计学的类比来厘清和改进。
方法详解¶
整体框架¶
本文并非提出新算法,而是构建统一的概念框架。整体论证线索为:
输入:当前 XAI 领域中混乱的概念和研究实践 → 核心映射:将解释算法形式化为"函数的统计量"(statistics of functions) → 类比桥梁:建立 XAI 与应用统计学的系统类比 → 输出:关于解释(interpretation)的深入讨论 + 改进研究实践的建议
论证分为三大步骤: 1. 形式化定义"函数的统计量",统一刻画所有事后解释算法(Section 2) 2. 建立 XAI 与应用统计学的系统类比(Section 3) 3. 深入讨论"统计量的解释"问题及其对 XAI 的启示(Section 4+)
关键设计¶
1. 三层统计量定义体系¶
作者构建了三个平行的形式化定义,展现 XAI 与传统统计的结构同构性:
- 概率分布的统计量 (Definition 2.1):\(F: \mathcal{P}(\mathbb{R}^d) \to \mathbb{R}^k\),将高维概率分布映射到低维向量。例如均值、中位数、分布矩等。
- 数据集的统计量 (Definition 2.2):\(F: \mathbb{R}^{d \times m} \to \mathbb{R}^k\),将 \(m\) 个 \(d\) 维数据点映射到低维向量。例如 p 值、F 统计量、可视化图表等。
- 函数的统计量 (Definition 2.3):\(F: \mathcal{F}(\mathbb{R}^d) \times \mathcal{P}(\mathbb{R}^d) \times \mathbb{R}^d \to \mathbb{R}^k\),将高维函数 \(f\)(加上分布 \(\mathcal{D}\) 和特定数据点 \(x\))映射到低维向量。这就是解释算法的形式化。
设计动机:通过在同一数学框架内并列三者,清晰展示了 XAI 并非全新领域,而是统计学的自然延伸——只是被总结的对象从分布/数据集变成了函数。
2. 统一覆盖主流解释算法¶
作者展示 Definition 2.3 可以统一刻画几乎所有事后解释算法,包括 SHAP、LIME、Grad-CAM、LRP、反事实解释、扰动解释等。此外,泛化误差、公平性指标等也是"函数的统计量",意味着解释、公平性度量、鲁棒性度量本质上都是同类对象,不应被人为割裂。
3. 两个关键洞察 (Insights)¶
-
Insight 1:事后解释算法是函数的统计量,无论它们是否对终端用户有用、是否满足某种目的、是否可解释。"是统计量"是客观数学事实,"有没有用"需要额外论证。这消解了 XAI 中"什么才算解释"的部分争议。
-
Insight 2:XAI 文献中很大一部分工作仅研究统计量的数学/计算性质(如 SHAP 的灵敏度、Shapley 值的高效计算),而不讨论这些统计量能回答什么现实世界的问题。这类似于统计学中只研究 estimator 的渐近性质,却不讨论其与科学问题的关系。
4. 解释 (Interpretation) 的哲学分析¶
作者明确区分两个层面: - (a) 数学形式与性质:解释算法的公式定义、公理性质、计算方法 - (b) 解释含义:该统计量如何与人类的直觉问题建立联系
人类对模型的直觉问题包括:模型如何做预测?是否可信?哪些特征重要?是否依赖了虚假关联?遗传变异如何影响疾病风险?碳定价对经济增长的影响?作者借用科学哲学中"直觉概念"(intuitive concepts) 的理论(Justus, 2012),指出从直觉问题到数学形式化的映射本身就是非平凡的,需要仔细论证。
核心建议¶
论文提出的改进研究实践的具体建议包括: - 解释算法应被设计为回答特定问题(如 Schut et al., 2023; Arditi et al., 2024) - 承认使用解释工具需要一定程度的专业知识,不应假设终端用户可以直接理解 - 重新审视基准数据集在 XAI 评价中的角色(Section 6) - 重视解释与公平性、鲁棒性度量的关系——它们都是函数的统计量
实验关键数据¶
框架对比分析¶
本文为立场论文,不含传统实验。以下总结论文的核心对比分析:
| 维度 | 应用统计学 | 可解释机器学习 |
|---|---|---|
| 被总结的对象 | 概率分布 / 数据集 | 学习到的函数 \(f\) |
| 统计量形式 | 均值、p 值、置信区间等 | SHAP、LIME、Grad-CAM 等 |
| 理论基础 | 成熟,有百年积淀 | 不成熟,处于前范式阶段 |
| 解释/误用问题 | p 值被广泛误用(ASA 声明) | 解释算法输出被频繁误解 |
| 研究重心 | 数学性质 + 解释 + 应用 | 偏重数学性质,解释讨论不足 |
| 专业门槛认知 | 认可统计需要专业训练 | 常假设终端用户可直接理解 |
| 基准评价 | 有成熟评价体系 | 基准数据集的使用方式存疑 |
XAI 文献研究类型分类¶
| 研究类型 | 示例 | 是否讨论解释含义 | 占比估计 |
|---|---|---|---|
| 数学性质分析 | SHAP 灵敏度、LIME 在特定函数类的行为 | 通常不讨论 | 高 |
| 计算优化 | Shapley 值高效近似算法 | 通常不讨论 | 高 |
| 公理性研究 | Shapley 值的唯一性、效率公理 | 部分讨论 | 中 |
| 用户研究 | 面向终端用户的可用性测试 | 隐式涉及 | 低 |
| 面向问题的设计 | 为特定问题设计解释 (Schut et al., 2023) | 直接讨论 | 极低 |
关键发现¶
- 最核心的问题被忽视:当前文献的最大缺陷是大多数论文不讨论其解释算法的"解释含义"——即该算法的输出到底回答了用户的哪个问题,以及为什么。
- p 值的教训:即使是看似简单的 p 值,在应用中也被广泛误读(参见 ASA 2016 声明),说明即使定义清晰的统计量也面临解释困难。XAI 中更复杂的统计量面临的误解风险更大。
- 统一视角的价值:将解释、公平性、鲁棒性统一为"函数的统计量",可以避免这些子领域之间的人为壁垒,促进交叉借鉴。
- 专业训练的必要性:使用 XAI 工具也需要适当培训,正如统计工具需要统计素养。
亮点与洞察¶
-
类比的力量:将 XAI 重新定位为应用统计学的分支,这一类比非常精妙。它不仅在形式上成立(函数统计量 vs 分布统计量的数学平行),还在实践层面提供了启发——应用统计学几百年积累的错误教训(如 p-hacking、Simpson's paradox 的误读)可以直接迁移为 XAI 的前车之鉴。
-
区分形式与解释:将 (a) 数学形式/性质 与 (b) 解释含义 清晰分离,是本文最核心的贡献。这一区分看似简单,但直击了 XAI 领域许多争论的根源——很多争论实质上混淆了"统计量本身的数学性质"和"统计量是否回答了有意义的问题"。
-
元研究视角可迁移:这种"从科学哲学角度审视整个研究领域"的方法论可以迁移到其他快速发展的 ML 子领域,如 LLM 对齐(什么是 alignment?形式化是否准确?)、AI 安全(安全指标是否真正度量了我们关心的安全性?)。
-
直觉概念的引入:借用 Justus (2012) 的哲学框架来讨论从直觉问题到形式化的映射,为 XAI 的概念基础提供了更坚实的哲学根基。
局限与展望¶
-
缺乏具体方法论:论文指出了"应该讨论解释含义"这一问题,但没有提供系统的方法论指南——研究者具体应该如何论证某个解释算法与特定直觉问题的对应关系?缺少可操作的评审清单或设计流程。
-
立场论文的固有局限:作为 Position Paper,没有实验验证。论文的核心主张(认识到类比 → 改进研究实践)是否真的能改善 XAI 研究的质量,尚无经验证据支持。
-
对机制可解释性的讨论不足:论文承认其重点是事后解释算法,仅在 Section 7 简要讨论了机制可解释性 (mechanistic interpretability),但后者正在快速发展,且可能具有不同的认识论特征。
-
忽视了计算实践的约束:实际应用中,解释算法的选择往往受限于计算成本和可用性(如 SHAP 对大模型的计算开销),论文的讨论较为理想化,未充分考虑工程实践约束。
-
统一框架可能过度简化:将所有解释算法都归为同一形式虽然简洁,但可能遮蔽了不同解释算法之间的本质区别(如全局解释 vs 局部解释、模型无关 vs 模型特定)。
相关工作与启发¶
-
vs SHAP (Lundberg & Lee, 2017):SHAP 是最典型的"先定义数学形式,再寻找解释含义"的例子。本文批评此类工作过于关注公理性质(如效率、对称性),而不够关注 SHAP 值实际回答了什么因果或统计问题。
-
vs LIME (Ribeiro et al., 2016):LIME 同样被纳入"函数统计量"框架。本文视角下,LIME 的核心问题不是近似精度,而是其线性近似系数的"解释含义"是否清晰——用户看到特征重要性分数时,到底在回答什么问题?
-
vs Molnar et al. (2020):该工作已指出解释算法输出被频繁误读,本文进一步从统计学角度解释了为什么误读会发生——因为研究者未充分讨论解释含义。
-
vs Miller (2019) 的社会科学视角:此前 XAI 主要从社会科学/心理学出发,将解释理解为对 why-question 的回答。本文提供了一个更广泛但也更具体的视角——不只是 why-question,而是任何直觉问题的统计回答。
-
与 AI 安全/对齐的关联:本文的方法论(审视一个领域的核心概念是否被充分形式化和解释)可以直接迁移到 AI alignment 领域——当我们定义 alignment metrics 时,是否清楚这些指标回答了什么直觉问题?
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 XAI 重新定位为应用统计学的视角虽非全新(Fisher et al., 2019 有类似观察),但系统性的论证和"形式 vs 解释"的清晰区分具有原创价值
- 实验充分度: ⭐⭐⭐ 作为 Position Paper 无需实验,但若能包含案例分析(如对某个具体解释算法做 interpretation 讨论的示范)会更有说服力
- 写作质量: ⭐⭐⭐⭐⭐ 论证清晰、逻辑严密,数学定义简洁优雅,哲学讨论有深度但不晦涩
- 价值: ⭐⭐⭐⭐ 对 XAI 社区具有重要的方向性指导意义,尤其是"请讨论你的解释算法到底回答了什么问题"这一呼吁切中要害
相关论文¶
- [ICLR 2026] When Machine Learning Gets Personal: Evaluating Prediction and Explanation
- [AAAI 2026] Explainable Melanoma Diagnosis with Contrastive Learning and LLM-based Report Generation
- [NeurIPS 2025] SpEx: A Spectral Approach to Explainable Clustering
- [ICML 2025] On the Power of Context-Enhanced Learning in LLMs
- [ACL 2025] The Anatomy of Evidence: An Investigation Into Explainable ICD Coding