ShapBPT: Image Feature Attributions Using Data-Aware Binary Partition Trees¶

会议: AAAI 2026
arXiv: 2602.07047
代码: https://github.com/amparore/shap_bpt
领域: 可解释AI / 计算机视觉
关键词: Shapley值, 二叉分割树, 可解释性, 特征归因, 图像分类

一句话总结¶

提出 ShapBPT，将数据感知的二叉分割树（BPT）作为层次联盟结构与 Owen 近似的 Shapley 值结合，实现与图像形态学对齐的特征归因，比现有 Shapley 方法收敛更快、形状识别更准确，并通过 20 人用户研究确认解释更受人类偏好。

研究背景与动机¶

领域现状：像素级特征归因是计算机视觉可解释AI（XCV）的重要工具。SHAP 基于博弈论计算 Shapley 值，LIME 通过预分割计算区域重要性。
现有痛点：(a) SHAP 使用数据无关的轴对齐（AA）网格层次结构，不利用图像的多尺度形态结构，导致收敛慢且与实际物体形状对齐差；(b) LIME 依赖预定义分割，一旦分割不准确则解释差且无法自适应细化；(c) 层次 Shapley 方法从未利用数据感知的层次结构用于 CV 任务。
核心矛盾：Owen 近似的计算代价随层次深度指数增长（\(O(4^d)\)），需要尽量少的递归分割就能到达相关区域。AA 网格无法做到这一点。
本文目标：让 Shapley 归因方法利用图像的形态学信息，用更少的计算预算达到更好的物体定位和形状识别。
切入角度：将 MPEG-7 编码中的 BPT 算法重新用于构建数据感知的层次联盟结构，像素按颜色均匀性和空间邻近性从底向上合并。
核心 idea：颜色和形状相似的像素区域很可能有相同的 Shapley 值，用 BPT 将它们合并能最大化 Owen 公式的效率。

方法详解¶

整体框架¶

输入图像先构建 BPT 层次结构（底向上逐步合并相邻且颜色相似的像素区域）。然后在该 BPT 层次上应用 Owen 近似公式递归计算 Shapley 归因值。采用自适应分裂策略——每次分裂 Shapley 值总和最大的区域，在给定评估预算下最大化解释精度。

关键设计¶

BPT 层次联盟结构生成
- 功能：构建与图像形态学对齐的二叉分层分割。
- 核心思路：从 \(n\) 个像素出发，每次合并距离最小的两个相邻分区。距离函数 \(dist(T_i, T_j) = clr^2(T_i, T_j) \cdot area(T_i, T_j) \cdot \sqrt{pr(T_i, T_j)}\)，其中 \(clr^2\) 为合并区域的颜色范围平方和、\(area\) 和 \(pr\) 分别为面积和周长。合并 \(n-1\) 次后得到完整二叉树。颜色相似、空间相邻的像素优先合并——确保分区边界与物体轮廓对齐。
- 设计动机：满足两个关键需求——R1：尽量少的递归分割即到达相关区域（形态学对齐的分割只需少量切割即可分离物体和背景）；R2：分区不能预先固定（BPT 的自适应分裂可根据 Shapley 值分布动态细化）。
Owen 近似的 Shapley 值计算
- 功能：在二叉层次联盟结构上高效计算像素级归因值。
- 核心思路：递归公式 \(\Omega_i(Q, T) = \frac{1}{2}\Omega_i(Q \cup T_2, T_1) + \frac{1}{2}\Omega_i(Q, T_1)\)（\(i \in T_1\)），不可分分区则均匀分配边际贡献 \(\frac{1}{|T|}\Delta_T(Q)\)。自适应分裂策略在给定预算 \(b\) 下，每次迭代分裂 Shapley 值总和最大的分区（每次分裂需 2 次模型评估）。
- 设计动机：精确 Shapley 值计算是 #P-hard 的。Owen 近似通过层次分组大幅降低代价，但仍依赖层次结构的质量。BPT 的形态学对齐让少量递归即可准确定位。
评估框架
- 功能：全面评估解释质量。
- 核心思路：响应型指标——\(AUC^+\)（逐步加入高 Shapley 值像素时模型输出的 AUC）和 \(AUC^-\)（逐步移除时）。真值型指标——\(AU\text{-}IoU\)（IoU 曲线下面积）和 \(max\text{-}IoU\)（最大 IoU）。

损失函数 / 训练策略¶

无需训练。BPT 构建和 Shapley 值计算均为确定性算法。主要超参为评估预算 \(b\)（模型调用次数），实验中测试 100、500、1000。

实验关键数据¶

主实验¶

7 个实验覆盖多种 CV 任务和模型（ResNet50、SwinViT、ViT、YOLO、CNN、VAE-GAN），在 ImageNet-S50 (E1) 上的结果：

方法	AUC+↑	AUC-↓	AU-IoU↑	max-IoU↑	时间(s)
GradCAM	中等	中等	中等	中等	快
LIME-1000	中等	中等	较好	较好	慢
AA-1000 (SHAP)	中等	中等	中等	中等	中等
BPT-1000	最优	最优	最优	最优	中等
BPT-500	次优	次优	次优	次优	较快
BPT-100	可比AA-500	可比AA-500	优于AA-500	优于AA-500	快

消融实验¶

配置	效果	说明
BPT vs AA（同预算）	BPT 显著更优	数据感知层次压倒性优势
BPT-100 vs AA-1000	BPT-100 可比	10倍更少的预算达到相同效果
距离函数消融	\(clr^2 \times area \times \sqrt{pr}\) 最优	颜色+面积+周长综合效果最好
用户研究(E8)	BPT 被偏好	20人研究显著偏好 BPT 解释

关键发现¶

BPT 在所有实验和所有指标上一致优于 AA 和其他方法。
BPT-100（100次模型调用）在物体定位上可比 AA-1000（1000次调用），收敛速度提升约 10 倍。
对 Vision Transformer（E3、E7）尤其有效——其他方法在 ViT 上产生混乱的显著性图，BPT 仍然清晰聚焦。
在异常检测（E6）和目标检测（E4）等不同 CV 任务上同样适用。
20 人用户研究确认 BPT 解释更受人类偏好。

亮点与洞察¶

将 MPEG-7 的 BPT 重用于可解释 AI：这是一个优雅的跨领域技术迁移——BPT 最初用于视频编码的多尺度表示，这里用它作为 Shapley 值的层次联盟结构。
数据感知 + 理论保证：BPT 提供数据感知的分割，Owen 公式提供理论保证，两者结合既有效又有理论基础。
10 倍效率提升：用 100 次模型评估达到 1000 次 AA 方法的效果，对实际部署中模型调用成本高的场景（如 API 调用）意义重大。

局限与展望¶

BPT 构建本身需要遍历所有像素对，对高分辨率图像可能成为瓶颈。
当前使用颜色作为合并准则，对纹理主导的场景（如材质识别）可能不够。
仅适用于图像数据，未探索扩展到视频或 3D 数据的可能性。
BPT 是确定性的——不同的初始超像素可能给出不同结果，鲁棒性分析不足。

评分¶

新颖性: ⭐⭐⭐⭐ BPT 与 Shapley 值的结合是首创
实验充分度: ⭐⭐⭐⭐⭐ 7 个实验覆盖多任务多模型 + 用户研究
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，示例图示清晰
价值: ⭐⭐⭐⭐ 对 XAI 领域的实际贡献大，开源且有 pip 包