跳转至

Additive Models Explained: A Computational Complexity Approach

会议: NeurIPS 2025
arXiv: 2510.21292
代码: 无
领域: 可解释AI / 计算复杂度
关键词: GAM, 可解释性, 计算复杂度, Shapley值, 充分理由

一句话总结

对广义可加模型(GAM)的多种解释类型(充分理由、对比解释、Shapley值等)进行系统的计算复杂度分析,揭示了GAM的可解释性代价高度依赖于输入域类型、组件模型类型和任务类型(回归vs分类),某些看似"可解释"的设定实际上是NP-Hard甚至#P-Hard。

研究背景与动机

  1. 领域现状:GAM \(f(\mathbf{x}) = \beta_0 + \sum_i \beta_i f_i(\mathbf{x}_i)\) 被ML社区广泛认为是"可解释"的模型类。
  2. 现有痛点:尽管GAM被视为可解释模型,但"可解释"不等于"高效可计算解释"。此前缺乏系统性的复杂度分析。
  3. 核心矛盾:直觉上GAM的加法结构应该让解释任务更容易,但这个直觉是否在所有设定下都成立?
  4. 本文要解决什么? 系统回答:对于不同类型的GAM(smooth/NAM/EBM)、不同输入域(可枚举离散/一般离散/连续)、不同解释方法,计算解释的复杂度分别是什么?
  5. 切入角度:将每种"组件模型×输入域×解释方法"组合建模为计算问题,证明精确的复杂度类别。
  6. 核心idea一句话:GAM的解释复杂度远比想象的多样——输入域类型是决定性因素,这在其他ML模型中从未被观察到。

方法详解

整体框架

纯理论复杂度分析。分析维度:组件模型(Smooth/NAM/EBM)×输入域(可枚举离散/一般离散/连续)×解释类型(CSR/MSR/MCR/FR/CC/SHAP-R/SHAP-C)。

关键设计(核心定理)

  1. 输入域是复杂度的决定性因素
  2. 发现:对于大多数解释类型,从可枚举离散域到一般离散/连续域,复杂度跳跃式增加(PTIME→NP-Hard)
  3. 独特性:这种"输入域敏感性"是GAM独有的——决策树、NN等不展示此特性

  4. 组件模型的影响仅在特定输入域下显现

  5. 可枚举离散域下,所有GAM的CSR/MSR/MCR都是PTIME
  6. 一般离散/连续域下,smooth GAM仍PTIME,NAM/EBM升至coNP-Hard/NP-Complete

  7. 回归vs分类的关键差异(仅限SHAP)

  8. Smooth GAM+可枚举离散域:SHAP-R是PTIME,SHAP-C是#P-Complete

核心复杂度结果总结

输入域 组件类型 CSR/MSR MCR SHAP-C SHAP-R
可枚举离散 任意 PTIME PTIME #P-C PTIME
一般离散 Smooth PTIME PTIME #P-C PTIME
一般离散 NAM/EBM coNP-H NP-C #P-C #P-C
连续 Smooth PTIME PTIME #P-C PTIME
连续 NAM/EBM coNP-H NP-C #P-C

实验关键数据

纯理论工作,无实验数据。核心贡献是覆盖54种设定的完整复杂度图谱。

关键发现

  • GAM并非总是"容易解释":NAM/EBM+连续域下MSR是coNP-Hard
  • Smooth GAM最安全:所有输入域下充分理由和对比解释都是PTIME
  • SHAP计算最昂贵:分类下几乎总是#P-Complete

亮点与洞察

  • 输入域敏感性是全新发现:此前研究其他模型的解释复杂度时从未发现此现象
  • "可解释模型≠可高效解释"的警示
  • 从NN verification到GAM解释的规约巧妙利用NAM中每个组件是独立NN的事实

局限性 / 可改进方向

  • 纯理论,无近似算法
  • 未考虑GA2M(二阶交互)
  • P-Hard结果可能过于悲观——实际中SHAP近似计算效果不错

相关工作与启发

  • vs Barcelo et al. (2020):分析决策树/NN的解释复杂度,本文扩展到GAM
  • 启发:选择可解释模型时需综合考虑目标解释类型和输入域

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统分析GAM解释复杂度,揭示全新现象
  • 实验充分度: ⭐⭐⭐ 纯理论,证明覆盖范围极广
  • 写作质量: ⭐⭐⭐⭐ Table 1一目了然
  • 价值: ⭐⭐⭐⭐ 对XAI理论基础有重要贡献