Additive Models Explained: A Computational Complexity Approach¶
会议: NeurIPS 2025
arXiv: 2510.21292
代码: 无
领域: 可解释AI / 计算复杂度
关键词: GAM, 可解释性, 计算复杂度, Shapley值, 充分理由
一句话总结¶
对广义可加模型(GAM)的多种解释类型(充分理由、对比解释、Shapley值等)进行系统的计算复杂度分析,揭示了GAM的可解释性代价高度依赖于输入域类型、组件模型类型和任务类型(回归vs分类),某些看似"可解释"的设定实际上是NP-Hard甚至#P-Hard。
研究背景与动机¶
- 领域现状:GAM \(f(\mathbf{x}) = \beta_0 + \sum_i \beta_i f_i(\mathbf{x}_i)\) 被ML社区广泛认为是"可解释"的模型类。
- 现有痛点:尽管GAM被视为可解释模型,但"可解释"不等于"高效可计算解释"。此前缺乏系统性的复杂度分析。
- 核心矛盾:直觉上GAM的加法结构应该让解释任务更容易,但这个直觉是否在所有设定下都成立?
- 本文要解决什么? 系统回答:对于不同类型的GAM(smooth/NAM/EBM)、不同输入域(可枚举离散/一般离散/连续)、不同解释方法,计算解释的复杂度分别是什么?
- 切入角度:将每种"组件模型×输入域×解释方法"组合建模为计算问题,证明精确的复杂度类别。
- 核心idea一句话:GAM的解释复杂度远比想象的多样——输入域类型是决定性因素,这在其他ML模型中从未被观察到。
方法详解¶
整体框架¶
纯理论复杂度分析。分析维度:组件模型(Smooth/NAM/EBM)×输入域(可枚举离散/一般离散/连续)×解释类型(CSR/MSR/MCR/FR/CC/SHAP-R/SHAP-C)。
关键设计(核心定理)¶
- 输入域是复杂度的决定性因素:
- 发现:对于大多数解释类型,从可枚举离散域到一般离散/连续域,复杂度跳跃式增加(PTIME→NP-Hard)
-
独特性:这种"输入域敏感性"是GAM独有的——决策树、NN等不展示此特性
-
组件模型的影响仅在特定输入域下显现:
- 可枚举离散域下,所有GAM的CSR/MSR/MCR都是PTIME
-
一般离散/连续域下,smooth GAM仍PTIME,NAM/EBM升至coNP-Hard/NP-Complete
-
回归vs分类的关键差异(仅限SHAP):
- Smooth GAM+可枚举离散域:SHAP-R是PTIME,SHAP-C是#P-Complete
核心复杂度结果总结¶
| 输入域 | 组件类型 | CSR/MSR | MCR | SHAP-C | SHAP-R |
|---|---|---|---|---|---|
| 可枚举离散 | 任意 | PTIME | PTIME | #P-C | PTIME |
| 一般离散 | Smooth | PTIME | PTIME | #P-C | PTIME |
| 一般离散 | NAM/EBM | coNP-H | NP-C | #P-C | #P-C |
| 连续 | Smooth | PTIME | PTIME | #P-C | PTIME |
| 连续 | NAM/EBM | coNP-H | NP-C | #P-C | — |
实验关键数据¶
纯理论工作,无实验数据。核心贡献是覆盖54种设定的完整复杂度图谱。
关键发现¶
- GAM并非总是"容易解释":NAM/EBM+连续域下MSR是coNP-Hard
- Smooth GAM最安全:所有输入域下充分理由和对比解释都是PTIME
- SHAP计算最昂贵:分类下几乎总是#P-Complete
亮点与洞察¶
- 输入域敏感性是全新发现:此前研究其他模型的解释复杂度时从未发现此现象
- "可解释模型≠可高效解释"的警示
- 从NN verification到GAM解释的规约巧妙利用NAM中每个组件是独立NN的事实
局限性 / 可改进方向¶
- 纯理论,无近似算法
- 未考虑GA2M(二阶交互)
-
P-Hard结果可能过于悲观——实际中SHAP近似计算效果不错¶
相关工作与启发¶
- vs Barcelo et al. (2020):分析决策树/NN的解释复杂度,本文扩展到GAM
- 启发:选择可解释模型时需综合考虑目标解释类型和输入域
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统分析GAM解释复杂度,揭示全新现象
- 实验充分度: ⭐⭐⭐ 纯理论,证明覆盖范围极广
- 写作质量: ⭐⭐⭐⭐ Table 1一目了然
- 价值: ⭐⭐⭐⭐ 对XAI理论基础有重要贡献