Sum-of-Parts: Self-Attributing Neural Networks with End-to-End Learning of Feature Groups¶
会议: ICML 2025
arXiv: 2310.16316
领域: 人体理解
一句话总结¶
SOP 提出了一种将任意可微分模型转换为基于分组的自归因神经网络(SANN)的框架,通过端到端学习特征分组实现了在 SANN 中的 SOTA 性能,并从理论上证明了逐特征 SANN 的误差下界和分组 SANN 的零误差可达性。
研究背景与动机¶
自解释神经网络(SENN)通过将预测分解为可解释原子的线性组合来提供保证的线性解释。自归因神经网络(SANN)是其中一类重要方法,使用特征子集作为可解释原子,预测可忠实地分解为特征子集贡献的线性组合。
然而,现有 SANN 面临严重的性能-可解释性权衡: - NAM(Neural Additive Models):使用单个特征,无法捕获特征相关性 - BagNet:依赖固定大小的图像块,缺乏灵活性 - FRESH:使用注意力选择单个子集,分组数量受限
这种权衡的根本原因是什么?能否通过更好的分组策略来克服?
方法详解¶
理论基础¶
逐特征 SANN 的误差下界¶
论文形式化证明了逐特征 SANN 在处理高相关特征数据时存在不可避免的误差下界。
定理 2.3(二项式的插入误差下界):对于 \(d\) 维的多线性二项式多项式 \(p(x) = \prod_{i \in S_1 \cup S_2} x_i + \prod_{j \in S_2 \cup S_3} x_j\):
其中 \(D_{ins}(\hat{\lambda})\) 是通过线性规划对偶可行点计算的下界。该下界随维度 \(d\) 指数增长。
分组 SANN 的零误差可达性¶
定理 2.4(非正式):对于任意 \(m\) 项多项式 \(p\),使用至多 \(m\) 个分组的 SANN 即可实现零插入和删除误差。
SOP 框架¶
SOP 由三个组件构成:
其中 \(\underbrace{g_i \in \Gamma(x)}_{\text{分组生成器}}\)。
分组生成器 \(\Gamma\)¶
使用多头自注意力模块为特征分配分数,并对每个注意力分布进行阈值截断(保留前 \(\tau=20\%\) 的特征):
其中 \(h_e\) 是编码器(通常取骨干模型的倒数第二层)。
骨干预测器 \(h\)¶
使用预训练的高性能模型(冻结参数),对每个分组掩码后的输入做预测:
分组选择器 \(\theta\)¶
使用稀疏交叉注意力模块为每个分组分配权重:
其中 \(C_h\) 用目标类别的权重初始化,\(z\) 为所有分组的最后隐状态。使用 sparsemax 替代 softmax 以产生稀疏的分组权重。
关键设计选择¶
- 二值化分组:使用 \(\{0,1\}\) 掩码避免信息泄露导致的不忠实解释
- 冻结骨干:保持预训练模型的高性能,仅训练分组生成器和选择器
- 模型无关:适用于任意可微分模型(ViT、CNN、BERT 等)
实验¶
主实验¶
| 类别 | 方法 | ImageNet-S ViT Err.↓ | IOU↑ | CosmoGrid CNN MSE↓ | MultiRC BERT Err.↓ |
|---|---|---|---|---|---|
| 骨干 | Backbone | 0.097 | - | 0.009 | 0.318 |
| Post-hoc | SHAP-F | 0.306 | 0.391 | 0.028 | 0.455 |
| Post-hoc | FG-F | 0.448 | 0.511 | 0.036 | 0.396 |
| SANN | BagNet | 0.501 | 0.314 | - | - |
| SANN | FRESH | 0.537 | 0.464 | - | 0.386 |
| SANN | SOP | 0.267 | 0.548 | 0.015 | 0.356 |
SOP 在所有 SANN 中取得最佳性能,且在 ImageNet-S 上甚至优于多数 post-hoc 方法。
科学发现应用¶
在宇宙学 CosmoGrid 数据集上,SOP 的分组和分数揭示了关于星系形成的新洞察。研究者可以通过检查分组来理解模型关注的具体特征(如星系密度、形态等)。
模型调试¶
SOP 可用于检测模型是否依赖正确/错误的特征(如物体 vs 背景),辅助模型调试。
亮点¶
- 理论贡献扎实:形式化证明了逐特征 SANN 的根本性局限和分组 SANN 的零误差可达性
- 模型无关的框架:可将任意预训练模型转化为 SANN,无需特定架构
- 端到端学习分组:无需分组标签监督,分组自动适应数据相关性
- 跨模态验证:在视觉(ViT)、科学(CNN)和语言(BERT)任务上均表现出色
- 实用价值:在模型调试和科学发现中展示了实际应用
局限性¶
- 每个分组需要独立的骨干模型前向传播,推理成本随分组数 \(m\) 线性增长
- 分组大小固定为 20%,可能不适合所有数据类型
- 二值化分组在梯度传播中需要特殊处理(缩放因子)
- 分组生成器的多头注意力增加了参数量
- 在 Mutag 等化学数据集上 SOP 的解释准确率低于某些 post-hoc 方法
评分¶
⭐⭐⭐⭐ (4/5)
理论与实践结合出色。证明了特征分组对 SANN 的根本性重要性,并提出了一个优雅的模型无关框架。在多个领域的实验验证了方法的通用性和实用性。
相关论文¶
- [ICML 2025] TopInG: Topologically Interpretable Graph Learning via Persistent Rationale Filtration
- [CVPR 2025] CryptoFace: End-to-End Encrypted Face Recognition
- [ICML 2025] Scaling Large Motion Models with Million-Level Human Motions
- [ICML 2025] FedRAG: A Framework for Fine-Tuning Retrieval-Augmented Generation Systems
- [ICML 2025] Towards Long-Horizon Interpretability: Efficient and Faithful Multi-Token Attribution for Reasoning LLMs