CE-FAM: Concept-Based Explanation via Fusion of Activation Maps¶

会议: ICCV 2025
arXiv: 2509.23849
代码: 无
领域: 多模态VLM / 可解释AI
关键词: 概念解释, 激活图融合, Grad-CAM, VLM知识迁移, 可解释性

一句话总结¶

提出CE-FAM概念解释方法，通过训练与图像分类器共享激活图的分支网络来模拟VLM嵌入，实现概念预测→概念区域（激活图加权和）→概念贡献（对分类分数影响）的一一对应，并提出新的NRA评估指标，在零样本概念推理上超越现有方法。

研究背景与动机¶

可解释AI (XAI)中，现有方法存在三个层级的解释需求，但鲜有方法同时满足：

是什么概念 (What)：模型学到了哪些人类可理解的概念？

在哪里 (Where)：这些概念对应图像中哪些区域？

如何贡献 (How)：每个概念对最终预测的贡献有多大？

显著性图方法（Grad-CAM等）：只能高亮重要区域，解释什么让给用户自行理解
概念瓶颈模型（CBM、TCAV）：能量化概念贡献，但无法定位概念区域
Dissection方法（CLIP-Dissect、WWW）：将概念与单个神经元关联，但遇到多对多映射问题——一个概念可能与多个神经元相关，且最优对应因样本而异

核心洞察：用单个激活图表示概念有本质局限，应通过激活图的加权融合来表示概念区域。

方法详解¶

整体框架¶

CE-FAM的工作流程： 1. 训练阶段：分支网络学习将分类器的多层激活图嵌入映射到VLM（CLIP）的图像嵌入空间 2. 概念预测：将映射后的嵌入与概念文本嵌入计算相似度 3. 概念区域：对概念预测分数反向传播，获得激活图权重，生成概念区域图 4. 概念贡献：通过遮蔽重要通道测量分类分数的下降量

关键设计¶

多层概念学习 (Multi-Layer Concept Learning)

与仅使用最后一层嵌入的传统方法不同，CE-FAM利用CNN各层的嵌入向量捕获从低级到高级的全部特征：

$$\mathbf{z}^l = \text{AvgPool}(A^l)$$ $$\mathbf{z}_{\text{cat}} = \text{Concat}(\mathbf{z}^1, \mathbf{z}^2, \ldots, \mathbf{z}^L)$$

通过translator函数 $h$（简单MLP）将 $\mathbf{z}_{\text{cat}}$ 投影到CLIP嵌入空间。训练损失：

$$\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{emb}} + \lambda \mathcal{L}_{\text{sim}}$$

其中 $\mathcal{L}_{\text{emb}} = \text{MSE}(h(\mathbf{z}_{\text{cat}}) - E_{\text{image}}(\mathbf{x}))$ 模拟VLM嵌入，$\mathcal{L}_{\text{sim}} = \text{MSE}(S^t - S_{\text{VLM}}^t)$ 匹配概念预测分数。

关键发现：即使不使用 $\mathcal{L}_{\text{sim}}$（即不需要预定义概念集），性能仍超过现有方法——这意味着方法支持对概念标签的零样本推理。

概念区域表示 (Concept Region via Activation Map Fusion)

扩展Grad-CAM思想，对每个概念 $t$ 在每层 $l$ 生成区域图：

$$R_t^l = \text{ReLU}\left(\sum_k \beta_k^t A_k^l\right)$$ $$\beta_k^t = \frac{1}{\gamma} \sum_i \sum_j \frac{\partial S^t}{\partial A_k^l(i,j)}$$

用概念预测分数 $S^t$ 的梯度作为权重（而非类别预测分数 $p^c$），生成概念特异的区域图。

层选择：通过关联度评分选择最相关层——逐个遮蔽Top-K重要通道，测量 $S^t$ 下降量的AUC，AUC最大的层最相关。

概念贡献量化 (Concept Contribution)

不限于最后一层，可量化任意层的概念贡献： - 计算方式与关联度评分相同，但目标改为类别预测分数 $p^c$ - 逐步遮蔽最重要通道，记录 $p^c$ 的下降曲线AUC - 负贡献（遮蔽后分数上升）也有意义，表示该概念对预测有负面影响

NRA评估指标 (Normalized Region Accuracy)

现有指标的问题：IoU受阈值选择影响，VEA (AUC)在大mask区域时即使随机结果也会得高分。

NRA通过归一化消除样本分布影响： $$\text{NRA} = \frac{\text{AUC} - \text{AUC}_{\text{low}}}{\text{AUC}_{\text{high}} - \text{AUC}_{\text{low}}}$$

其中 $\text{AUC}_{\text{high}}$ 为理想（GT分割）下的AUC，$\text{AUC}_{\text{low}}$ 为随机区域的AUC。NRA衡量预测区域在随机和理想之间的相对位置。

损失函数 / 训练策略¶

数据集：ImageNet用于训练概念学习
优化器：SGD，初始LR 0.1，warmup到0.2
最大150 epochs + early stopping（验证loss连续4 epoch不降则LR×0.1）
$\lambda = 0.001$

实验关键数据¶

主实验¶

Broden数据集上概念区域评估（ResNet50分类器 + CLIP VLM）：

方法	EPG(Object)	EPG(Avg)	NRA(Object)	NRA(Avg)	Hit Rate(Object)	Hit Rate(Avg)
CLIP-Dissect	0.197	0.146	0.327	0.334	0.215	0.199
WWW	0.179	0.117	0.322	0.278	0.154	0.114
CE-FAM	0.233	0.154	0.459	0.361	0.436	0.247

CE-FAM在NRA上比最佳基线高8%，Hit Rate（NRA>0.5的比例）高13%。

ImageNet-S数据集上（ViT-B/16分类器）：

方法	EPG	NRA	Hit Rate
CLIP-Dissect	0.047	0.105	0.013
WWW	0.076	0.232	0.017
CE-FAM	0.138	0.273	0.193

在ViT上优势尤为明显，因为单通道激活图在ViT中噪声更大。

消融实验¶

不同条件下概念区域评估（ResNet50）：

VLM	Sim Loss	多层	EPG Avg	NRA Avg	Hit Rate Avg
CLIP	-	-	0.152	0.338	0.209
CLIP	✓	-	0.156	0.348	0.234
CLIP	✓	✓	0.154	0.361	0.247
SigLIP	-	-	0.151	0.383	0.283
SigLIP	✓	✓	0.157	0.388	0.295

关键发现¶

激活图融合远优于单通道关联：Hit Rate从11.4%（WWW）提升到24.7%，说明概念不应由单个神经元表示
多层特征互补：使用多层嵌入比仅用最后一层提高NRA 2.3%和Hit Rate 3.8%，低级特征对颜色等概念重要
零样本概念推理有效：不使用 $\mathcal{L}_{\text{sim}}$ 时仍超越需要概念标签的现有方法
VLM选择影响显著：SigLIP比CLIP表现更好，2D表示更优秀的VLM将直接提升概念学习效果
训练效率高：仅需几个epoch就超越现有方法的性能
误分类分析：通过概念贡献可解释误分类原因（如将indigo bunting误判为goldfinch因yellow概念有负贡献）

亮点与洞察¶

首次建立概念标签-区域-贡献的一一对应：完成了概念解释的"What-Where-How"三位一体
通用框架：适用于任何使用激活图的图像分类器（CNN和ViT均可）
NRA指标设计合理：通过归一化消除了样本分布对评价的影响
零样本能力：无需概念标注数据集，仅依赖VLM知识即可处理任意概念

局限与展望¶

概念表达能力受限于VLM的性能：CLIP倾向于被图像中突出特征主导，难以预测细粒度概念
概念集选择敏感：过大的概念集会引入无关概念噪声
概念贡献缺乏定量评估的ground truth，验证困难
方法的计算成本随层数和概念数增加，规模化应用需优化

评分¶

新颖性: ⭐⭐⭐⭐ 概念区域通过激活图融合表示，一一对应框架新颖
实验充分度: ⭐⭐⭐⭐ Broden和ImageNet-S两数据集+多分类器+多VLM+消融+定性分析
写作质量: ⭐⭐⭐⭐ 问题定义清晰，评估指标设计有理有据
实用价值: ⭐⭐⭐⭐ 框架通用，可用于模型调试和误分类诊断