跳转至

Why Does It Look There? Structured Explanations for Image Classification

会议: CVPR 2026
arXiv: 2603.10234
代码: 无
领域: others / 可解释AI
关键词: 结构化解释, 原型, GradCAM, 模型训练动态, XAI

一句话总结

提出 I2X 框架,通过在训练检查点追踪从 GradCAM 提取的原型强度与模型置信度的协同演化,将非结构化的可解释性(显著性图)转化为结构化的可解释性,揭示模型"为什么关注那里"的推理结构,并利用这种理解指导微调提升性能。

研究背景与动机

领域现状:XAI 方法主要产生三类输出——显著性图(GradCAM)、概念向量(TCAV)和反事实样本。这些都是非结构化的可解释性,只告诉"模型看哪里",不告诉"模型怎么组织这些信息来推理"。

现有痛点: - 现有方法提供的是碎片化的解释,无法回答"为什么模型看那里"和"模型如何在类间做决策" - 一些方法用 GPT/CLIP 等辅助模型描述行为,但解释不忠实于原始模型,可能产生幻觉 - 训练过程中模型如何逐步建立决策策略的动态过程完全不透明

核心矛盾:可解释性(interpretability)≠ 可说明性(explainability),前者是描述现象,后者需要结构化归因

切入角度:模型的决策不是静态的——它在训练过程中逐步建立原型证据和置信度的关联,追踪这个过程就能构建结构化解释

核心 idea:在训练检查点间追踪原型强度变化与置信度变化的映射关系,将非结构化解释升级为结构化解释

方法详解

整体框架

I2X 包含五个步骤: 1. 在最终训练模型上用 K-Means 聚类所有隐藏特征向量→抽象原型 2. 在选定的训练检查点上用 GradCAM 生成显著性图 3. 将显著性图与原型对齐→计算原型强度 4. 用 HDBSCAN 聚类置信度变化模式→样本分组 5. 用岭回归建模原型强度变化→置信度变化的映射

关键设计

  1. 抽象原型提取:

    • 功能:从模型学到的特征中提取代表性模式
    • 核心思路:对最终模型的所有训练样本提取隐藏特征 \(\mathbf{F} \in \mathbb{R}^{(N \cdot h \cdot w) \times d}\),先 PCA 降维再 K-Means聚类得到 \(K\) 个聚类中心作为原型
    • 每个特征位置分配到最近原型:\(A_i = (a_1, a_2, ..., a_{hw}), a_j \in \{1,...,K\}\)
    • 设计动机:将高维特征空间压缩为有限个可解释的"模式"
  2. 原型强度追踪:

    • 功能:量化模型在每个训练检查点对每个原型的关注程度
    • 核心公式:将显著图和原型对齐,计算每个原型的平均强度: \(P_k^t = \frac{\sum_{j=1}^{hw} \mathbf{1}[a_j = k] \cdot \text{Flatten}(I_j^t)}{\sum_{j=1}^{hw} \mathbf{1}[a_j = k]}\)
    • 变化量 \(\Delta \mathbf{P}^t = \mathbf{P}^{t+1} - \mathbf{P}^t\) 刻画原型证据的演化
    • 设计动机:显著性图告诉"看哪里",原型告诉"看什么",强度变化告诉"学习进程"
  3. 置信度-原型映射:

    • 功能:建立原型强度变化与模型置信度变化之间的定量关系
    • 核心思路:
      • 用 HDBSCAN 聚类所有样本的置信度变化 \(\Delta \hat{Y}^t\),识别共同的学习模式
      • 用岭回归建模映射:\(\beta^t = (\pi^{t\top}\pi^t + \lambda \mathbf{I})^{-1}\pi^{t\top}C^t \in \mathbb{R}^{K \times M}\)
      • \(\beta^t\) 量化了在训练步骤 \(t\) 时,原型强度变化如何驱动置信度变化
    • 设计动机:聚合全部检查点的 \([\beta_t]\) 就能看到模型如何组织原型证据来支持/区分各类
  4. 结构化解释的组装:

    • 功能:从共享原型和特化原型两个角度分析每个类的决策过程
    • 共享原型:所有样本中都存在的原型,如数字7的横笔和斜笔
    • 特化原型:仅在子组中出现的原型,用于区分类内变体
    • 关键发现:模型不是同时区分所有类,而是渐进式地先解决原型差异明显的类,再处理模糊的类

损失函数 / 训练策略

I2X 是分析框架,不引入新的训练损失。但发现的"不确定原型"可以通过扰动微调策略提升性能:先在去除含不确定原型的样本上微调一轮,再在完整数据上微调一轮。

实验关键数据

主实验 — 微调提升

微调策略 Accuracy(%) 2↔7 混淆数 说明
完整数据 → 完整数据 98.46±0.31 9.60±2.87 基线
筛选数据 → 筛选数据 98.31±0.63 9.00±4.90 混淆少但不稳定
筛选数据 → 完整数据 98.64±0.12 8.40±1.85 最优:混淆少且稳定

CIFAR-10 / InceptionV3 泛化

模型/数据集 微调策略 Accuracy(%) 混淆数
ResNet-50 / CIFAR-10 full→full 81.43±2.79 cat↔dog: 261.2
ResNet-50 / CIFAR-10 curated→full 84.02±2.70 238.6
InceptionV3 / MNIST full→full 99.13±0.29 4↔9: 12.6
InceptionV3 / MNIST curated→full 99.11±0.27 10.8

关键发现

  • 模型学习是渐进式的:先区分原型差异大的类(如 7 vs 6),再处理相似类(如 7 vs 1)
  • 不确定原型(如 P-26/P-17)在训练中在两个类之间摆动,是导致混淆的根因
  • 训练数据顺序的随机性会改变原型选择策略——不同训练运行可能学到不同的推理策略
  • 扰动微调策略(先去除含不确定原型的样本微调)能减少 MNIST 上约 5 个、CIFAR-10 上约 23 个混淆样本

亮点与洞察

  • 将非结构化解释升级为结构化解释:从"模型看了什么"到"模型为什么看那里以及如何做决策",概念层次提升。
  • 揭示模型学习的渐进式策略:类似人类学习——先区分容易的,再处理困难的。
  • 不确定原型的发现:找到了跨类摆动的原型是混淆的直接原因,且可以据此设计改进策略,有实际价值。
  • 训练随机性的结构化分析:第一次用原型追踪解释不同训练运行间的策略差异。

局限与展望

  • 仅在 MNIST 和 CIFAR-10 上验证,复杂数据集(ImageNet)上是否仍可解释有待验证
  • K-Means 聚类数 \(K\) 需要手动选择(MNIST 32, CIFAR-10 128),增大数据集时的选择策略不明确
  • 依赖 GradCAM,对 Transformer 架构需要替换为 TokenTM 等方法
  • 岭回归是线性模型,可能无法捕捉复杂的非线性原型-置信度关系
  • 微调提升虽一致但幅度有限(MNIST <0.2%, CIFAR-10 ~2.6%)
  • 分析成本较高:需要保存多个训练检查点并逐个分析

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从可解释性到可说明性的概念升级非常有洞察力
  • 实验充分度: ⭐⭐⭐ 仅 MNIST 和 CIFAR-10,数据集规模和复杂度偏低
  • 写作质量: ⭐⭐⭐⭐ 概念阐述清晰,图表信息密度高
  • 价值: ⭐⭐⭐⭐ 提供了理解和改进模型的新视角,有实用潜力

相关论文