跳转至

Sum-of-Parts: Self-Attributing Neural Networks with End-to-End Learning of Feature Groups

会议: ICML 2025
arXiv: 2310.16316
领域: 人体理解

一句话总结

SOP 提出了一种将任意可微分模型转换为基于分组的自归因神经网络(SANN)的框架,通过端到端学习特征分组实现了在 SANN 中的 SOTA 性能,并从理论上证明了逐特征 SANN 的误差下界和分组 SANN 的零误差可达性。

研究背景与动机

自解释神经网络(SENN)通过将预测分解为可解释原子的线性组合来提供保证的线性解释。自归因神经网络(SANN)是其中一类重要方法,使用特征子集作为可解释原子,预测可忠实地分解为特征子集贡献的线性组合。

然而,现有 SANN 面临严重的性能-可解释性权衡: - NAM(Neural Additive Models):使用单个特征,无法捕获特征相关性 - BagNet:依赖固定大小的图像块,缺乏灵活性 - FRESH:使用注意力选择单个子集,分组数量受限

这种权衡的根本原因是什么?能否通过更好的分组策略来克服?

方法详解

理论基础

逐特征 SANN 的误差下界

论文形式化证明了逐特征 SANN 在处理高相关特征数据时存在不可避免的误差下界。

定理 2.3(二项式的插入误差下界):对于 \(d\) 维的多线性二项式多项式 \(p(x) = \prod_{i \in S_1 \cup S_2} x_i + \prod_{j \in S_2 \cup S_3} x_j\)

\[\sum_{S \subseteq [d]} \text{InsErr}(G, \alpha, S) \geq D_{ins}(\hat{\lambda})\]

其中 \(D_{ins}(\hat{\lambda})\) 是通过线性规划对偶可行点计算的下界。该下界随维度 \(d\) 指数增长

分组 SANN 的零误差可达性

定理 2.4(非正式):对于任意 \(m\) 项多项式 \(p\),使用至多 \(m\) 个分组的 SANN 即可实现零插入和删除误差。

SOP 框架

SOP 由三个组件构成:

\[f(x) = \sum_{i=1}^m \underbrace{\theta(\Gamma(x), x)_i}_{\text{分组选择器}} \cdot \underbrace{h(g_i \odot x)}_{\text{骨干预测器}}\]

其中 \(\underbrace{g_i \in \Gamma(x)}_{\text{分组生成器}}\)

分组生成器 \(\Gamma\)

使用多头自注意力模块为特征分配分数,并对每个注意力分布进行阈值截断(保留前 \(\tau=20\%\) 的特征):

\[\Gamma(x) = (g_1, \ldots, g_m) = \text{SoftSelfAttn}_{\tau=20\%}(h_e(x))\]

其中 \(h_e\) 是编码器(通常取骨干模型的倒数第二层)。

骨干预测器 \(h\)

使用预训练的高性能模型(冻结参数),对每个分组掩码后的输入做预测:

\[y_i = h(g_i \odot x), \quad i = 1, \ldots, m\]

分组选择器 \(\theta\)

使用稀疏交叉注意力模块为每个分组分配权重:

\[\theta(\Gamma(x), x) = (c_1, \ldots, c_m) = \text{SparseCrossAttn}(C_h, z)\]

其中 \(C_h\) 用目标类别的权重初始化,\(z\) 为所有分组的最后隐状态。使用 sparsemax 替代 softmax 以产生稀疏的分组权重。

关键设计选择

  • 二值化分组:使用 \(\{0,1\}\) 掩码避免信息泄露导致的不忠实解释
  • 冻结骨干:保持预训练模型的高性能,仅训练分组生成器和选择器
  • 模型无关:适用于任意可微分模型(ViT、CNN、BERT 等)

实验

主实验

类别 方法 ImageNet-S ViT Err.↓ IOU↑ CosmoGrid CNN MSE↓ MultiRC BERT Err.↓
骨干 Backbone 0.097 - 0.009 0.318
Post-hoc SHAP-F 0.306 0.391 0.028 0.455
Post-hoc FG-F 0.448 0.511 0.036 0.396
SANN BagNet 0.501 0.314 - -
SANN FRESH 0.537 0.464 - 0.386
SANN SOP 0.267 0.548 0.015 0.356

SOP 在所有 SANN 中取得最佳性能,且在 ImageNet-S 上甚至优于多数 post-hoc 方法。

科学发现应用

在宇宙学 CosmoGrid 数据集上,SOP 的分组和分数揭示了关于星系形成的新洞察。研究者可以通过检查分组来理解模型关注的具体特征(如星系密度、形态等)。

模型调试

SOP 可用于检测模型是否依赖正确/错误的特征(如物体 vs 背景),辅助模型调试。

亮点

  • 理论贡献扎实:形式化证明了逐特征 SANN 的根本性局限和分组 SANN 的零误差可达性
  • 模型无关的框架:可将任意预训练模型转化为 SANN,无需特定架构
  • 端到端学习分组:无需分组标签监督,分组自动适应数据相关性
  • 跨模态验证:在视觉(ViT)、科学(CNN)和语言(BERT)任务上均表现出色
  • 实用价值:在模型调试和科学发现中展示了实际应用

局限性

  • 每个分组需要独立的骨干模型前向传播,推理成本随分组数 \(m\) 线性增长
  • 分组大小固定为 20%,可能不适合所有数据类型
  • 二值化分组在梯度传播中需要特殊处理(缩放因子)
  • 分组生成器的多头注意力增加了参数量
  • 在 Mutag 等化学数据集上 SOP 的解释准确率低于某些 post-hoc 方法

评分

⭐⭐⭐⭐ (4/5)

理论与实践结合出色。证明了特征分组对 SANN 的根本性重要性,并提出了一个优雅的模型无关框架。在多个领域的实验验证了方法的通用性和实用性。

相关论文