跳转至

Why Does It Look There? Structured Explanations for Image Classification

会议: CVPR2025
arXiv: 2603.10234
代码: 待确认
领域: others
关键词: 可解释AI, 结构化解释, 原型学习, 显著性图, 训练动态分析

一句话总结

提出I2X框架,通过追踪训练过程中模型置信度与原型强度的协同演化,将非结构化的显著性图解释转化为结构化的解释,回答模型"为什么看那里"的问题,并可指导微调提升性能。

研究背景与动机

  • 深度学习模型的黑盒特性限制了透明性和可信度,可解释AI(XAI)成为关键需求
  • 现有XAI方法主要提供非结构化可解释性:显著性图、概念向量、反事实样本等
  • 这些方法能指出模型关注哪里,但无法回答为什么模型关注那里、模型如何组织这些区域进行学习和推理
  • 部分工作尝试引入结构化推理(如用GPT/CLIP生成文本描述),但依赖辅助模型,损害了对原始模型的忠实性
  • 从"可解释性"到"可说明性"的转化仍是开放难题:需要将非结构化的事后解释组织为结构化的因果/责任归因
  • 采用哲学中的解释观点:"解释是因果责任的归因",本文聚焦于模型行为的责任归因

方法详解

I2X框架(Interpretability to Explainability):

Step 1 — 抽象原型构建: - 用最终模型的特征提取器\(f\)提取所有训练样本的空间特征\(F \in \mathbb{R}^{h \times w \times d}\) - 对所有\(N \times h \times w\)个特征向量做PCA降维+K-Means聚类(K=32) - 聚类中心即为抽象原型,代表模型学到的重复模式 - 每个图像区域通过聚类分配关联到特定原型

Step 2 — 原型强度追踪: - 在训练检查点\(t\)处,用GradCAM生成显著性图\(I^t\) - 将显著性图按原型分配聚合,得到原型强度向量\(\mathbf{P}^t \in \mathbb{R}^K\) - 计算相邻检查点间的原型强度变化\(\Delta \mathbf{P}^t\)

Step 3 — 置信度变化聚类: - 用HDBSCAN对所有样本的置信度变化聚类,自动发现共同的置信度变化模式 - HDBSCAN可自动确定聚类数并识别噪声点(标记为-1),无需预设K值 - 建立每个聚类的平均原型强度变化与平均置信度变化的对应关系

Step 4 — 映射建模: - 用岭回归建模原型强度变化→置信度变化的映射:\(\beta^t = (\pi^{t\top}\pi^t + \lambda I)^{-1}\pi^{t\top}C^t\) - 聚合所有检查点的\(\beta^t\),获得模型如何利用原型演化来支持/区分各类别的全局视图

结构化解释组装: - 共享原型: 类内所有样本共有的、一致支持预测的原型,反映类别核心特征 - 专用原型: 仅属于类内子集的原型,通过二次聚类识别,用于区分细粒度模式 - 不确定原型: 在训练过程中角色在类别间交替的原型(如P-26在数字7和2间摆动),是分类混淆的根源 - 分析聚焦于模型置信度发生显著变化的检查点,跳过无变化的步骤 - 对关键原型进一步检查哪些类别的置信度发生反向变化,揭示竞争关系

实验关键数据

MNIST + ResNet-50: - 分析数字7的学习过程:5个共享原型(P-8, P-10, P-20, P-24, P-27),模型先区分容易的类(6, 2),再处理困难类(1, 9) - 模型学习策略:先解决原型差异明显的类别对,再逐步处理共享原型多的模糊类别 - P-26是数字7和2之间的不确定原型,训练中其贡献在两个类别间交替 - 使用策划数据集微调(移除含不确定原型P-17的样本)后: - 数字2↔7混淆从14.80降至9.80(单轮) - "策划→完整"两轮微调:混淆降至8.40±1.85,准确率98.64%

CIFAR-10 + ResNet-50: - 不确定原型P-72(黑色与橙色边缘)导致猫狗混淆,因橙色猫和狗具有相似的边缘结构 - 策划→完整微调:猫↔狗混淆从261.20降至238.60,准确率81.43%→84.02%

InceptionV3 + MNIST: - 不确定原型P-7(数字9的右上弧)导致数字4和9混淆 - 微调后:4↔9混淆从12.60降至10.80

亮点

  • 概念新颖: 明确区分"可解释性"(非结构化,如显著性图)与"可说明性"(结构化,追踪训练演化),提出从前者到后者的系统转化框架
  • 忠实于原始模型: 不依赖GPT/CLIP等外部辅助模型,所有解释直接来自被分析模型本身,避免引入幻觉
  • 可操作性: 不仅解释模型行为,还能指导微调——通过识别和扰动不确定原型改善性能,形成"解释→诊断→改进"闭环
  • 揭示训练动态: 展示模型按"从易到难"的顺序学习区分类别,以及训练数据顺序如何影响推理策略——不同训练轮次产生不同的原型选择序列
  • 跨架构泛化: 在ResNet-50和InceptionV3上均有效,跨MNIST和CIFAR-10验证
  • 实验设计完整:每种微调实验重复5次取平均,减少随机性影响
  • 可视化丰富:提供原型演化图和标注训练检查点图两种互补的解释格式

局限性

  • 实验主要在MNIST和CIFAR-10上验证,未在大规模/高分辨率数据集(ImageNet等)上测试
  • 需要在多个训练检查点运行GradCAM和聚类,计算成本较高
  • K-Means聚类数(K=32/128)需手动设定,对结果可能有影响
  • 依赖GradCAM作为底层解释方法,继承其固有局限(仅适用于CNN)
  • 岭回归建模原型-置信度关系是线性假设,可能错失非线性交互
  • 微调改进幅度较小(CIFAR-10准确率提升约2.6%),实用价值待进一步验证
  • 原型数量K的选择对不同数据集不同(MNIST用32,CIFAR用128),缺乏自适应机制
  • 目前仅支持CNN架构(依赖GradCAM),对Transformer需替换底层解释方法

与相关工作的对比

  • vs GradCAM/CAM: 这些方法提供非结构化的显著性图,I2X在其基础上构建结构化的训练演化解释
  • vs ProtoPNet: ProtoPNet是ante-hoc方法需要修改模型架构,I2X是post-hoc适用于任何已训练模型
  • vs DiffCAM: DiffCAM对比不同样本/组的激活模式,但不追踪训练过程中的演化
  • vs HybridCBM/GPT-based: 这些方法依赖外部辅助模型生成解释可能引入幻觉,I2X仅使用原始模型信息

评分

  • 新颖性: ⭐⭐⭐⭐ (从非结构化到结构化解释的系统化框架,视角独特)
  • 实验充分度: ⭐⭐⭐ (多模型多数据集但规模偏小,定量改进有限)
  • 写作质量: ⭐⭐⭐⭐ (概念阐述清楚,可视化丰富)
  • 价值: ⭐⭐⭐⭐ (为XAI领域提供新范式,从解释到改进的闭环有实用潜力)