Prediction via Shapley Value Regression (ViaSHAP)¶
会议: ICML2025
arXiv: 2505.04775
代码: GitHub
领域: 可解释预测 / Explainable ML
关键词: Shapley值, 可解释性, KAN, 特征归因, 表格数据, 自解释模型
一句话总结¶
提出 ViaSHAP,将 Shapley 值的计算融入模型训练过程,使得推理时通过对 Shapley 值求和直接得到预测,无需后验解释器,在表格数据上达到 XGBoost 级别的预测精度,同时 Shapley 值近似质量显著优于 FastSHAP。
研究背景与动机¶
- 核心矛盾:Shapley 值具有局部准确性(local accuracy)、缺失性(missingness)、一致性(consistency)等理想的解释性质,是唯一同时满足这三条公理的特征归因方案。然而传统方法(KernelSHAP, FastSHAP)都是后验(post-hoc)计算,推理时额外引入大量开销。
- KernelSHAP 需要对每个实例单独求解加权最小二乘优化问题,需采样大量联盟(coalition)才能收敛。
- FastSHAP 虽然训练了一个参数化解释器来摊销推理成本,但仍然需要一个已训练好的黑盒模型作为"教师",本质上仍是后验方案。
- 研究空白:至今没有人将 Shapley 值计算作为预测的手段(prediction via Shapley values),即先算 Shapley 值、再由其求和得到预测。
方法详解¶
核心思想¶
ViaSHAP 训练一个函数 \(\phi^{\mathcal{V}ia}: X \to \mathbb{R}^{n \times d}\),对输入 \(x\) 输出一个 \(n \times d\) 的 Shapley 值矩阵,预测结果通过列求和获得:
\[\hat{y} = \sigma\!\left(\mathbf{1}^\top \phi^{\mathcal{V}ia}(x;\theta)\right)\]
其中 \(\sigma\) 为链接函数(如 sigmoid 或 softmax)。这意味着模型先计算每个特征对每个输出维度的贡献,再汇总成预测。
训练目标——双重损失¶
训练同时优化两个目标:
\[\mathcal{L}(\theta) = \sum_{x \in X}\sum_{j \in M}\left(\beta \cdot \mathbb{E}_{p(S)}\left[\left(\mathcal{V}ia_j^{\text{SHAP}}(x^S) - \mathcal{V}ia_j^{\text{SHAP}}(\mathbf{0}) - \mathbf{1}_S^\top \phi_j^{\mathcal{V}ia}(x;\theta)\right)^2\right] - y_j \log(\hat{y}_j)\right)\]
- Shapley 损失 \(\mathcal{L}_\phi\):对随机采样的联盟 \(S\),要求用被选特征的 Shapley 值之和来复现"仅用这些特征时的模型输出",使 Shapley 值满足加权最小二乘意义下的最优解。
- 预测损失:标准的交叉熵(分类)或 MSE(回归)。
- 超参数 \(\beta\) 控制两者的权衡,默认 \(\beta=10\),每个实例采样 32 个联盟。
理论保证¶
论文证明了当 \(\phi^{\mathcal{V}ia}(x;\theta^*)\) 达到全局最优时:
| 性质 | 含义 |
|---|---|
| 局部准确性 (Lemma 3.1) | \(\sum_i \phi_i = f(x) - f(\mathbf{0})\),Shapley 值之和等于预测差 |
| 缺失性 (Lemma 3.2) | 对预测无影响的特征 Shapley 值为 0 |
| 一致性 (Lemma 3.3) | 特征贡献增大则 Shapley 值不减 |
| 定理 3.4 | 最优解即精确的 Shapley 值 |
模型实现:四种变体¶
| 变体 | 架构 | 备注 |
|---|---|---|
| KAN\(^{\mathcal{V}ia}\) | Kolmogorov-Arnold Network (spline) | 层结构 \(n \to 64 \to 128 \to 64 \to n \times d\) |
| KAN\(_\varrho^{\mathcal{V}ia}\) | KAN + 径向基函数(RBF) | 同上结构,用 RBF 替换 spline |
| MLP\(^{\mathcal{V}ia}\) | 标准 MLP + BatchNorm + ReLU | 同维度结构 |
| MLP\(_\theta^{\mathcal{V}ia}\) | 加宽 MLP(参数量对齐 KAN) | 用于公平比较 |
此外,图像任务提供 ResNet50\(^{\mathcal{V}ia}\)、ResNet18\(^{\mathcal{V}ia}\)、U-Net\(^{\mathcal{V}ia}\) 三种实现。
实验关键数据¶
表格数据预测性能(25 个数据集,AUC)¶
| 方法 | 平均排名 | 与 XGBoost 差异 |
|---|---|---|
| KAN\(^{\mathcal{V}ia}\) | 最优 | 统计不显著 (Nemenyi p>0.05) |
| KAN\(_\varrho^{\mathcal{V}ia}\) | 第二 | 统计不显著 |
| XGBoost | 第三 | — |
| Random Forest | 第四 | — |
| TabNet | 第五 | — |
| MLP\(_\theta^{\mathcal{V}ia}\) | 第六 | 与 KAN 差异显著 |
| MLP\(^{\mathcal{V}ia}\) | 第七 | 与 KAN 差异显著 |
- KAN 变体与树模型之间无统计显著差异;KAN 显著优于 MLP 变体。
- KAN\(^{\mathcal{V}ia}\) 还显著优于不带 Shapley 损失的同结构 KAN 分类器,说明 Shapley 损失反而有正则化效果。
Shapley 值近似质量¶
| 指标 | 最优实现 | 说明 |
|---|---|---|
| 余弦相似度 | MLP\(_\theta^{\mathcal{V}ia}\) 第一, KAN 第二 | 四种变体间 Friedman 检验无显著差异 |
| Spearman 秩相关 | KAN\(^{\mathcal{V}ia}\) 第一 | MLP\(^{\mathcal{V}ia}\) 与其他差异显著 |
| vs FastSHAP | ViaSHAP 显著优于 FastSHAP | 在表格和图像数据上均成立 |
图像实验(CIFAR-10)¶
| 模型 | 测试准确率 | Shapley 值质量 |
|---|---|---|
| ResNet50\(^{\mathcal{V}ia}\) | 有竞争力 | 优于 FastSHAP |
| ResNet18\(^{\mathcal{V}ia}\) | 有竞争力 | 优于 FastSHAP |
| U-Net\(^{\mathcal{V}ia}\) | 有竞争力 | 优于 FastSHAP |
消融实验¶
- \(\beta\) 的影响:\(\beta\) 增大可提升 Shapley 值精度且不牺牲预测性能,但过大(≥200 倍)会导致训练失败。
- 联盟采样数:对性能和解释精度影响较小。
- 链接函数:去掉链接函数可显著提升 Shapley 值精度,预测性能不降。
- 效率约束:对性能和解释精度无显著影响。
亮点与洞察¶
- 范式转换:首次将 Shapley 值从"后验解释工具"转变为"预测机制",做到推理即解释,零额外开销。
- KAN 的优势:基于 Kolmogorov-Arnold 表示定理的 KAN 在学习 Shapley 值函数时比 MLP 更有效,即使参数量对齐仍显著领先。
- Shapley 损失的正则化效应:加入 Shapley 损失后模型预测性能反而提升,表明强制学习特征贡献有类似正则化的效果。
- 理论完备:严格证明了最优解满足 Shapley 值的三条公理性质。
- 架构无关:方法可适配 KAN、MLP、ResNet、U-Net 等多种架构,通用性好。
局限与展望¶
- 全局最优假设:理论保证依赖全局最优,但实际训练中只能达到局部最优,Shapley 值的精确性受限。
- 推理增加的输出维度:模型输出从 \(d\) 维扩展至 \(n \times d\) 维,高维特征场景下参数量和计算量增加。
- 未与最新表格模型对比:仅与 XGBoost/RF/TabNet 比较,未涉及 FT-Transformer、TabPFN 等最新 SOTA。
- \(\beta\) 的调参:虽作者称默认值鲁棒,但消融实验显示极端值可导致训练崩溃,不同任务可能需要调参。
- 因果解释的局限:Shapley 值衡量的是统计贡献而非因果效应,文中承认可能误导用户。
- 安全隐患:实时输出 Shapley 值可能被攻击者利用于模型逆向工程或对抗攻击。
相关工作与启发¶
- KernelSHAP (Lundberg & Lee, 2017):经典后验 Shapley 值近似,ViaSHAP 的理论基础。
- FastSHAP (Jethani et al., 2022):预训练解释器摊销推理成本,但仍是后验方案。
- KAN (Liu et al., 2024):Kolmogorov-Arnold Network,ViaSHAP 证明其在学习 Shapley 值函数时优于 MLP。
- 自解释网络 (Alvarez Melis & Jaakkola, 2018):生成解释但不满足 Shapley 公理。
- 启发:可将 ViaSHAP 框架迁移到更强的表格模型(如 Transformer 架构),或用于对抗鲁棒性研究。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次提出"通过 Shapley 值回归进行预测"的范式
- 实验充分度: ⭐⭐⭐⭐ — 25 个数据集 + 图像实验 + 完整消融,但缺少最新表格 SOTA 对比
- 写作质量: ⭐⭐⭐⭐ — 理论推导严谨,结构清晰
- 价值: ⭐⭐⭐⭐ — 统一预测与解释的思路有实际意义,但全局最优假设限制了理论的实用性
相关论文¶
- [NeurIPS 2025] Faithful Group Shapley Value
- [ICML 2025] Regression for the Mean: Auto-Evaluation and Inference with Few Labels through Post-hoc Regression
- [ICML 2025] Prediction-Powered Adaptive Shrinkage Estimation
- [ICML 2025] Heavy-Tailed Linear Bandits: Huber Regression with One-Pass Update
- [NeurIPS 2025] Regression Trees Know Calculus