Why Does It Look There? Structured Explanations for Image Classification¶

会议: CVPR2025
arXiv: 2603.10234
代码: 待确认
领域: others
关键词: 可解释AI, 结构化解释, 原型学习, 显著性图, 训练动态分析

一句话总结¶

提出I2X框架，通过追踪训练过程中模型置信度与原型强度的协同演化，将非结构化的显著性图解释转化为结构化的解释，回答模型"为什么看那里"的问题，并可指导微调提升性能。

研究背景与动机¶

深度学习模型的黑盒特性限制了透明性和可信度，可解释AI（XAI）成为关键需求
现有XAI方法主要提供非结构化可解释性：显著性图、概念向量、反事实样本等
这些方法能指出模型关注哪里，但无法回答为什么模型关注那里、模型如何组织这些区域进行学习和推理
部分工作尝试引入结构化推理（如用GPT/CLIP生成文本描述），但依赖辅助模型，损害了对原始模型的忠实性
从"可解释性"到"可说明性"的转化仍是开放难题：需要将非结构化的事后解释组织为结构化的因果/责任归因
采用哲学中的解释观点："解释是因果责任的归因"，本文聚焦于模型行为的责任归因

方法详解¶

I2X框架（Interpretability to Explainability）:

Step 1 — 抽象原型构建: - 用最终模型的特征提取器\(f\)提取所有训练样本的空间特征\(F \in \mathbb{R}^{h \times w \times d}\) - 对所有\(N \times h \times w\)个特征向量做PCA降维+K-Means聚类（K=32） - 聚类中心即为抽象原型，代表模型学到的重复模式 - 每个图像区域通过聚类分配关联到特定原型

Step 2 — 原型强度追踪: - 在训练检查点\(t\)处，用GradCAM生成显著性图\(I^t\) - 将显著性图按原型分配聚合，得到原型强度向量\(\mathbf{P}^t \in \mathbb{R}^K\) - 计算相邻检查点间的原型强度变化\(\Delta \mathbf{P}^t\)

Step 3 — 置信度变化聚类: - 用HDBSCAN对所有样本的置信度变化聚类，自动发现共同的置信度变化模式 - HDBSCAN可自动确定聚类数并识别噪声点（标记为-1），无需预设K值 - 建立每个聚类的平均原型强度变化与平均置信度变化的对应关系

Step 4 — 映射建模: - 用岭回归建模原型强度变化→置信度变化的映射：\(\beta^t = (\pi^{t\top}\pi^t + \lambda I)^{-1}\pi^{t\top}C^t\) - 聚合所有检查点的\(\beta^t\)，获得模型如何利用原型演化来支持/区分各类别的全局视图

结构化解释组装: - 共享原型: 类内所有样本共有的、一致支持预测的原型，反映类别核心特征 - 专用原型: 仅属于类内子集的原型，通过二次聚类识别，用于区分细粒度模式 - 不确定原型: 在训练过程中角色在类别间交替的原型（如P-26在数字7和2间摆动），是分类混淆的根源 - 分析聚焦于模型置信度发生显著变化的检查点，跳过无变化的步骤 - 对关键原型进一步检查哪些类别的置信度发生反向变化，揭示竞争关系

实验关键数据¶

MNIST + ResNet-50: - 分析数字7的学习过程：5个共享原型（P-8, P-10, P-20, P-24, P-27），模型先区分容易的类（6, 2），再处理困难类（1, 9） - 模型学习策略：先解决原型差异明显的类别对，再逐步处理共享原型多的模糊类别 - P-26是数字7和2之间的不确定原型，训练中其贡献在两个类别间交替 - 使用策划数据集微调（移除含不确定原型P-17的样本）后： - 数字2↔7混淆从14.80降至9.80（单轮） - "策划→完整"两轮微调：混淆降至8.40±1.85，准确率98.64%

CIFAR-10 + ResNet-50: - 不确定原型P-72（黑色与橙色边缘）导致猫狗混淆，因橙色猫和狗具有相似的边缘结构 - 策划→完整微调：猫↔狗混淆从261.20降至238.60，准确率81.43%→84.02%

InceptionV3 + MNIST: - 不确定原型P-7（数字9的右上弧）导致数字4和9混淆 - 微调后：4↔9混淆从12.60降至10.80

亮点¶

概念新颖: 明确区分"可解释性"（非结构化，如显著性图）与"可说明性"（结构化，追踪训练演化），提出从前者到后者的系统转化框架
忠实于原始模型: 不依赖GPT/CLIP等外部辅助模型，所有解释直接来自被分析模型本身，避免引入幻觉
可操作性: 不仅解释模型行为，还能指导微调——通过识别和扰动不确定原型改善性能，形成"解释→诊断→改进"闭环
揭示训练动态: 展示模型按"从易到难"的顺序学习区分类别，以及训练数据顺序如何影响推理策略——不同训练轮次产生不同的原型选择序列
跨架构泛化: 在ResNet-50和InceptionV3上均有效，跨MNIST和CIFAR-10验证
实验设计完整：每种微调实验重复5次取平均，减少随机性影响
可视化丰富：提供原型演化图和标注训练检查点图两种互补的解释格式

局限性¶

实验主要在MNIST和CIFAR-10上验证，未在大规模/高分辨率数据集（ImageNet等）上测试
需要在多个训练检查点运行GradCAM和聚类，计算成本较高
K-Means聚类数（K=32/128）需手动设定，对结果可能有影响
依赖GradCAM作为底层解释方法，继承其固有局限（仅适用于CNN）
岭回归建模原型-置信度关系是线性假设，可能错失非线性交互
微调改进幅度较小（CIFAR-10准确率提升约2.6%），实用价值待进一步验证
原型数量K的选择对不同数据集不同（MNIST用32，CIFAR用128），缺乏自适应机制
目前仅支持CNN架构（依赖GradCAM），对Transformer需替换底层解释方法

与相关工作的对比¶

vs GradCAM/CAM: 这些方法提供非结构化的显著性图，I2X在其基础上构建结构化的训练演化解释
vs ProtoPNet: ProtoPNet是ante-hoc方法需要修改模型架构，I2X是post-hoc适用于任何已训练模型
vs DiffCAM: DiffCAM对比不同样本/组的激活模式，但不追踪训练过程中的演化
vs HybridCBM/GPT-based: 这些方法依赖外部辅助模型生成解释可能引入幻觉，I2X仅使用原始模型信息

评分¶

新颖性: ⭐⭐⭐⭐ (从非结构化到结构化解释的系统化框架，视角独特)
实验充分度: ⭐⭐⭐ (多模型多数据集但规模偏小，定量改进有限)
写作质量: ⭐⭐⭐⭐ (概念阐述清楚，可视化丰富)
价值: ⭐⭐⭐⭐ (为XAI领域提供新范式，从解释到改进的闭环有实用潜力)