跳转至

Rethinking Explainable Machine Learning as Applied Statistics

会议: ICML2025
arXiv: 2402.02870
代码: 无(Position Paper,无代码实现)
领域: others / 可解释性 / XAI
关键词: Explainable ML, Applied Statistics, Post-hoc Explanations, SHAP, Interpretation

一句话总结

本文是一篇立场论文,提出可解释机器学习应被视为"高维函数的应用统计学"——解释算法本质上是函数的统计量(functionals),应当像传统统计量(如 p 值、置信区间)一样关注其解释(interpretation)问题,而非仅研究数学性质;当前文献最大的缺陷正是忽视了"解释算法的输出到底回答了哪个直觉问题"这一核心议题。

研究背景与动机

领域现状:可解释机器学习(XAI)过去十年发展迅速,涌现了大量事后解释算法(SHAP、LIME、Grad-CAM、LRP 等),以及围绕这些算法的数学分析、计算优化和用户研究。然而,该领域仍处于"前范式"(pre-paradigmatic) 阶段——对"什么是解释"、"什么是可解释性"等基本概念没有共识。

现有痛点: - 大量论文只关注解释算法的数学性质(如 Shapley 值的公理性、LIME 的灵敏度、计算复杂度),却很少讨论这些解释到底回答了什么现实世界的问题。 - 即使是传统统计中相对简单的统计量(如 p 值),在实际使用中也经常被误解和误用;而 XAI 中更复杂的解释输出,被误解的情况更加严重。 - 解释算法与公平性、鲁棒性等其他模型指标的关系尚不清晰。

核心矛盾:XAI 社区花大量精力研究解释算法的形式(form)——即数学定义和计算方法——却忽视了解释的解释(interpretation of explanations),即这些数学对象如何与人类关于真实世界的直觉问题联系起来。

本文目标 - 为 XAI 提供一个统一的概念框架,将其定位为"高维函数的应用统计学" - 明确区分解释算法的"数学形式"与"解释含义"两个层面 - 提出改进研究实践的具体建议

切入角度:作者观察到,传统应用统计学总结概率分布和数据集的高维信息,而 XAI 总结学习函数的高维信息,两者在结构上是类比的。应用统计学是成熟领域,可以借鉴其经验教训来改进 XAI 的研究范式。

核心 idea:解释算法 = 函数的统计量,XAI 的基础问题可以通过与应用统计学的类比来厘清和改进。

方法详解

整体框架

本文并非提出新算法,而是构建统一的概念框架。整体论证线索为:

输入:当前 XAI 领域中混乱的概念和研究实践 → 核心映射:将解释算法形式化为"函数的统计量"(statistics of functions) → 类比桥梁:建立 XAI 与应用统计学的系统类比 → 输出:关于解释(interpretation)的深入讨论 + 改进研究实践的建议

论证分为三大步骤: 1. 形式化定义"函数的统计量",统一刻画所有事后解释算法(Section 2) 2. 建立 XAI 与应用统计学的系统类比(Section 3) 3. 深入讨论"统计量的解释"问题及其对 XAI 的启示(Section 4+)

关键设计

1. 三层统计量定义体系

作者构建了三个平行的形式化定义,展现 XAI 与传统统计的结构同构性:

  • 概率分布的统计量 (Definition 2.1):\(F: \mathcal{P}(\mathbb{R}^d) \to \mathbb{R}^k\),将高维概率分布映射到低维向量。例如均值、中位数、分布矩等。
  • 数据集的统计量 (Definition 2.2):\(F: \mathbb{R}^{d \times m} \to \mathbb{R}^k\),将 \(m\)\(d\) 维数据点映射到低维向量。例如 p 值、F 统计量、可视化图表等。
  • 函数的统计量 (Definition 2.3):\(F: \mathcal{F}(\mathbb{R}^d) \times \mathcal{P}(\mathbb{R}^d) \times \mathbb{R}^d \to \mathbb{R}^k\),将高维函数 \(f\)(加上分布 \(\mathcal{D}\) 和特定数据点 \(x\))映射到低维向量。这就是解释算法的形式化。

设计动机:通过在同一数学框架内并列三者,清晰展示了 XAI 并非全新领域,而是统计学的自然延伸——只是被总结的对象从分布/数据集变成了函数。

2. 统一覆盖主流解释算法

作者展示 Definition 2.3 可以统一刻画几乎所有事后解释算法,包括 SHAP、LIME、Grad-CAM、LRP、反事实解释、扰动解释等。此外,泛化误差、公平性指标等也是"函数的统计量",意味着解释、公平性度量、鲁棒性度量本质上都是同类对象,不应被人为割裂。

3. 两个关键洞察 (Insights)

  • Insight 1:事后解释算法是函数的统计量,无论它们是否对终端用户有用、是否满足某种目的、是否可解释。"是统计量"是客观数学事实,"有没有用"需要额外论证。这消解了 XAI 中"什么才算解释"的部分争议。

  • Insight 2:XAI 文献中很大一部分工作仅研究统计量的数学/计算性质(如 SHAP 的灵敏度、Shapley 值的高效计算),而不讨论这些统计量能回答什么现实世界的问题。这类似于统计学中只研究 estimator 的渐近性质,却不讨论其与科学问题的关系。

4. 解释 (Interpretation) 的哲学分析

作者明确区分两个层面: - (a) 数学形式与性质:解释算法的公式定义、公理性质、计算方法 - (b) 解释含义:该统计量如何与人类的直觉问题建立联系

人类对模型的直觉问题包括:模型如何做预测?是否可信?哪些特征重要?是否依赖了虚假关联?遗传变异如何影响疾病风险?碳定价对经济增长的影响?作者借用科学哲学中"直觉概念"(intuitive concepts) 的理论(Justus, 2012),指出从直觉问题到数学形式化的映射本身就是非平凡的,需要仔细论证。

核心建议

论文提出的改进研究实践的具体建议包括: - 解释算法应被设计为回答特定问题(如 Schut et al., 2023; Arditi et al., 2024) - 承认使用解释工具需要一定程度的专业知识,不应假设终端用户可以直接理解 - 重新审视基准数据集在 XAI 评价中的角色(Section 6) - 重视解释与公平性、鲁棒性度量的关系——它们都是函数的统计量

实验关键数据

框架对比分析

本文为立场论文,不含传统实验。以下总结论文的核心对比分析:

维度 应用统计学 可解释机器学习
被总结的对象 概率分布 / 数据集 学习到的函数 \(f\)
统计量形式 均值、p 值、置信区间等 SHAP、LIME、Grad-CAM 等
理论基础 成熟,有百年积淀 不成熟,处于前范式阶段
解释/误用问题 p 值被广泛误用(ASA 声明) 解释算法输出被频繁误解
研究重心 数学性质 + 解释 + 应用 偏重数学性质,解释讨论不足
专业门槛认知 认可统计需要专业训练 常假设终端用户可直接理解
基准评价 有成熟评价体系 基准数据集的使用方式存疑

XAI 文献研究类型分类

研究类型 示例 是否讨论解释含义 占比估计
数学性质分析 SHAP 灵敏度、LIME 在特定函数类的行为 通常不讨论
计算优化 Shapley 值高效近似算法 通常不讨论
公理性研究 Shapley 值的唯一性、效率公理 部分讨论
用户研究 面向终端用户的可用性测试 隐式涉及
面向问题的设计 为特定问题设计解释 (Schut et al., 2023) 直接讨论 极低

关键发现

  • 最核心的问题被忽视:当前文献的最大缺陷是大多数论文不讨论其解释算法的"解释含义"——即该算法的输出到底回答了用户的哪个问题,以及为什么。
  • p 值的教训:即使是看似简单的 p 值,在应用中也被广泛误读(参见 ASA 2016 声明),说明即使定义清晰的统计量也面临解释困难。XAI 中更复杂的统计量面临的误解风险更大。
  • 统一视角的价值:将解释、公平性、鲁棒性统一为"函数的统计量",可以避免这些子领域之间的人为壁垒,促进交叉借鉴。
  • 专业训练的必要性:使用 XAI 工具也需要适当培训,正如统计工具需要统计素养。

亮点与洞察

  • 类比的力量:将 XAI 重新定位为应用统计学的分支,这一类比非常精妙。它不仅在形式上成立(函数统计量 vs 分布统计量的数学平行),还在实践层面提供了启发——应用统计学几百年积累的错误教训(如 p-hacking、Simpson's paradox 的误读)可以直接迁移为 XAI 的前车之鉴。

  • 区分形式与解释:将 (a) 数学形式/性质 与 (b) 解释含义 清晰分离,是本文最核心的贡献。这一区分看似简单,但直击了 XAI 领域许多争论的根源——很多争论实质上混淆了"统计量本身的数学性质"和"统计量是否回答了有意义的问题"。

  • 元研究视角可迁移:这种"从科学哲学角度审视整个研究领域"的方法论可以迁移到其他快速发展的 ML 子领域,如 LLM 对齐(什么是 alignment?形式化是否准确?)、AI 安全(安全指标是否真正度量了我们关心的安全性?)。

  • 直觉概念的引入:借用 Justus (2012) 的哲学框架来讨论从直觉问题到形式化的映射,为 XAI 的概念基础提供了更坚实的哲学根基。

局限与展望

  • 缺乏具体方法论:论文指出了"应该讨论解释含义"这一问题,但没有提供系统的方法论指南——研究者具体应该如何论证某个解释算法与特定直觉问题的对应关系?缺少可操作的评审清单或设计流程。

  • 立场论文的固有局限:作为 Position Paper,没有实验验证。论文的核心主张(认识到类比 → 改进研究实践)是否真的能改善 XAI 研究的质量,尚无经验证据支持。

  • 对机制可解释性的讨论不足:论文承认其重点是事后解释算法,仅在 Section 7 简要讨论了机制可解释性 (mechanistic interpretability),但后者正在快速发展,且可能具有不同的认识论特征。

  • 忽视了计算实践的约束:实际应用中,解释算法的选择往往受限于计算成本和可用性(如 SHAP 对大模型的计算开销),论文的讨论较为理想化,未充分考虑工程实践约束。

  • 统一框架可能过度简化:将所有解释算法都归为同一形式虽然简洁,但可能遮蔽了不同解释算法之间的本质区别(如全局解释 vs 局部解释、模型无关 vs 模型特定)。

相关工作与启发

  • vs SHAP (Lundberg & Lee, 2017):SHAP 是最典型的"先定义数学形式,再寻找解释含义"的例子。本文批评此类工作过于关注公理性质(如效率、对称性),而不够关注 SHAP 值实际回答了什么因果或统计问题。

  • vs LIME (Ribeiro et al., 2016):LIME 同样被纳入"函数统计量"框架。本文视角下,LIME 的核心问题不是近似精度,而是其线性近似系数的"解释含义"是否清晰——用户看到特征重要性分数时,到底在回答什么问题?

  • vs Molnar et al. (2020):该工作已指出解释算法输出被频繁误读,本文进一步从统计学角度解释了为什么误读会发生——因为研究者未充分讨论解释含义。

  • vs Miller (2019) 的社会科学视角:此前 XAI 主要从社会科学/心理学出发,将解释理解为对 why-question 的回答。本文提供了一个更广泛但也更具体的视角——不只是 why-question,而是任何直觉问题的统计回答。

  • 与 AI 安全/对齐的关联:本文的方法论(审视一个领域的核心概念是否被充分形式化和解释)可以直接迁移到 AI alignment 领域——当我们定义 alignment metrics 时,是否清楚这些指标回答了什么直觉问题?

评分

  • 新颖性: ⭐⭐⭐⭐ 将 XAI 重新定位为应用统计学的视角虽非全新(Fisher et al., 2019 有类似观察),但系统性的论证和"形式 vs 解释"的清晰区分具有原创价值
  • 实验充分度: ⭐⭐⭐ 作为 Position Paper 无需实验,但若能包含案例分析(如对某个具体解释算法做 interpretation 讨论的示范)会更有说服力
  • 写作质量: ⭐⭐⭐⭐⭐ 论证清晰、逻辑严密,数学定义简洁优雅,哲学讨论有深度但不晦涩
  • 价值: ⭐⭐⭐⭐ 对 XAI 社区具有重要的方向性指导意义,尤其是"请讨论你的解释算法到底回答了什么问题"这一呼吁切中要害

相关论文