Measuring the (Un)Faithfulness of Concept-Based Explanations¶

会议: CVPR 2026
arXiv: 2504.10833
代码: 有（论文声明已释放代码）
领域: 可解释AI / 模型解释性
关键词: 概念解释, 忠实度度量, 无监督概念方法, 代理模型, 可解释性评估

一句话总结¶

本文揭示了现有无监督概念解释方法 (U-CBEMs) 的忠实度被高估——原因是使用了过于复杂的代理模型和有缺陷的删除式评估。作者提出 SURF（Surrogate Faithfulness），一个简单的线性代理 + 双空间度量框架，通过"随机概念应该更不忠实"的 sanity check 验证了其正确性，并首次系统地揭示了多个 SOTA U-CBEMs 实际上并不忠实。

研究背景与动机¶

领域现状：深度视觉模型难以解释。概念解释方法 (CBEMs) 通过将模型中间表示分解为人类可理解的语义概念（如边缘、颜色、物体部件）来提高可解释性。无监督 CBEMs (U-CBEMs) 自动发现概念激活向量 (CAVs) 及其重要性得分，避免了人工标注概念的需求。
现有痛点：U-CBEMs 的核心评估指标是"忠实度"——解释是否真正反映模型的内部计算。但现有评估存在两个系统性问题：(a) 代理模型过于复杂——ICE-Eval 先用 NMF 重建 embedding 再过原始模型，C-SHAP-Eval 额外训练了一个 MLP，这些复杂代理让 U-CBEMs "看起来"忠实，但解释本身并未清楚地导向模型输出；(b) 删除式评估不可靠——通过删除概念再观察性能下降来间接推断忠实度，但删除后的输入可能偏离数据流形，模型在偏离流形处的行为不可预测。
核心矛盾：可解释性和忠实度之间存在天然矛盾——为了让解释简单易懂（可解释），必然丢失信息（降低忠实度）。过去的评估方法通过允许复杂代理和单一类别度量，人为地让 U-CBEMs 同时"显示"高可解释性和高忠实度，但实际上解释并不能清楚地推导出模型的输出。
本文目标 (a) 统一现有碎片化的忠实度评估框架；(b) 设计满足三个准则（简单代理、包含概念重要性、全输出度量）的忠实度度量；(c) 对现有 U-CBEMs 做首次公平的忠实度基准评测。
切入角度：作者提出了一个极其简洁的 sanity check——如果把概念替换为随机向量，忠实度应该下降。令人震惊的是，现有的 ICE-Eval 和 C-SHAP-Eval 在这个检查上都失败了。
核心 idea：用模型本身的最终线性层结构作为代理模板，提出零参数线性代理 SURF，搭配 logit 空间 (MAE) 和概率空间 (EMD) 的双度量，实现对 U-CBEM 忠实度的准确、可靠评估。

方法详解¶

整体框架¶

SURF 的评估流程：对于任何 U-CBEM 生成的解释（包含 CAVs \(V_i\) 和概念重要性 \(A_i\)），SURF 用一个线性代理将概念表示映射到模型输出空间，然后在 logit 和概率两个空间上度量解释输出与真实模型输出的差异。整个过程不引入任何可训练参数，计算量极低（200 FLOPs vs C-SHAP-Eval 的 205M FLOPs）。

关键设计¶

统一的忠实度框架:
- 功能：将所有现有的 U-CBEM 忠实度评估方法纳入一个统一视角
- 核心思路：任何忠实度度量都由三部分组成——度量 \(d\)（如何比较输出差异）、代理 \(s\)（如何从解释得到输出）、概念投影 \(\mathcal{P}\)（如何将 embedding 映射到概念空间）。删除式方法通过在"删除空间"（像素/权重/概念）中移除概念后观察模型退化来评估；代理式方法直接用代理近似 Eq.3 的忠实度积分。
- 设计动机：每个 U-CBEM 论文都提出自己的忠实度度量，无法跨方法比较。统一框架暴露了各方法的系统性差异。
SURF 代理设计:
- 功能：用最简单的方式从 U-CBEM 解释预测模型输出
- 核心思路：观察模型最终线性层的计算 \(y_i = \sum_j \mathbf{h}_j^T \mathbf{f}_{i,j}\)，可以分解为 \(y_i = \sum_j \mathbf{h}_j^T \mathbf{v}_{i,j} \alpha_{i,j}\)，其中 \(\mathbf{v}_{i,j}\) 是归一化方向（即 CAV），\(\alpha_{i,j}\) 是其范数（即重要性）。SURF 的代理直接模仿这个结构：\(\hat{y}_i = \sum_j \sum_k \alpha_{i,k} \mathcal{P}(\mathbf{h}_j; V_i)_k\)，用 U-CBEM 发现的 CAV 和重要性替代最终层权重。
- 设计动机：这个代理是零参数的、非重建式的——不需要先重建 embedding 再过原始模型。它直接检验"解释中的概念和重要性能否通过线性组合预测模型输出"，这恰好是人类解释者需要执行的心理运算。
三大准则 (Desiderata):
- 功能：定义"好的"忠实度度量应满足的条件
- 核心思路：(1) 代理尽可能简单——复杂代理只是把解释的复杂性推到了下游，人类解释者仍然不知道解释如何导向预测；(2) 使用解释的所有组件——特别是概念重要性 \(A_i\)，如果代理不使用 \(A_i\)，错误的重要性不会影响忠实度得分；(3) 度量所有输出类别的误差——只看预测类或 GT 类会忽略其他类别上的大偏差。
- 设计动机：现有的 ICE-Eval 和 C-SHAP-Eval 全部违反这三个准则——前者基于重建且不使用 \(A_i\)，后者引入可训练 MLP 且不使用 \(A_i\)，两者都只度量单个类别。
SURF 双度量:
- 功能：在 logit 和概率两个互补空间上全面评估忠实度
- 核心思路：\(\text{SURF}_{\text{MAE}} = \frac{1}{|\mathcal{V}|C} \sum_{\mathbf{x}} \sum_i |y_i - \hat{y}_i|\) 衡量 logit 空间上的绝对误差；\(\text{SURF}_{\text{EMD}} = \frac{1}{2|\mathcal{V}|} \sum_{\mathbf{x}} \sum_i |p_i - \hat{p}_i|\) 衡量概率空间上的分布距离。
- 设计动机：logit 空间不受归一化影响但范围不可控，概率空间归一化了但 softmax 会放大预测类、压缩其他类。用两个度量互相弥补：低 \(\text{SURF}_{\text{MAE}}\) 保证 logit 精度，低 \(\text{SURF}_{\text{EMD}}\) 保证概率分布准确。

损失函数 / 训练策略¶

SURF 本身不需训练，是纯评估 metric。实验中 U-CBEMs 按各自论文设置运行，每个输出类发现 5 个概念。

实验关键数据¶

Measure-over-Measure 比较（Sanity Check）¶

设置	SURF_MAE ↓	SURF_EMD ↓	Top-1 ↑	C-SHAP Top-1 ↑	ICE Top-1 ↑
Perfect	0.00	0.000	100%	9.02%	100%
Rand Imp	2.70	0.862	97.5%	9.02%	100%
Full Rand	3.17	0.883	1.3%	97.6%	3.3%

关键发现：C-SHAP-Eval 在完全随机解释 (Full Rand) 下反而报告了 97.6% 的准确率，比 Perfect 设置还高！ICE-Eval 在随机重要性 (Rand Imp) 下仍报告 100% 忠实度。只有 SURF 在三个设置中表现正确——Perfect 完美、Rand Imp 下降、Full Rand 最差。

U-CBEM 基准评测（Object Classification, ResNet-50）¶

U-CBEM	SURF_MAE ↓	SURF_EMD ↓	Top-1 ↑	Rank Corr ↑
CDISCO	3.40	0.932	0.2%	0.002
ICE	3.33	0.628	98.9%	0.093
CRAFT	3.19	0.878	90.6%	0.068
C-SHAP	3.28	0.882	6.3%	0.005
MCD	2.60	0.426	99.4%	0.145
HU-MCD	1.97	0.384	99.7%	0.149
SAE	1.04	0.195	99.2%	0.366

关键发现¶

没有一个现有 U-CBEM 是真正忠实的——最好的 SAE 的 \(\text{SURF}_{\text{EMD}}\) 也达到 0.195，意味着概率分布有显著偏差。多数方法的 \(\text{SURF}_{\text{EMD}}\) 在 0.4-0.93 之间，几乎与随机一样差。
Top-1 Accuracy 是误导性指标——ICE 和 MCD 的 Top-1 高达 98-99%，但 SURF_EMD 和 Rank Corr 揭示它们在非预测类上的误差极大。只看 Top-1 会严重高估忠实度。
SAE 在所有任务中最忠实——无论是分类、多属性预测还是年龄回归，SAE 都是最好的，可能因其在完备性准则上的优势。
增加概念数不一定提高忠实度——CDISCO、CRAFT、C-SHAP、ICE 在增加概念数后忠实度几乎不变甚至下降。只有 MCD/HU-MCD 随概念数增加而单调改善，并出现自然的饱和拐点。

亮点与洞察¶

"随机概念应该更不忠实"这个 sanity check 极其简洁有力——用一个任何人都能理解的直觉检验，一击命中了所有先前度量的要害。这类简单而致命的检验在 XAI 领域非常有价值（类似 Adebayo et al. 的 saliency map sanity check）。
SURF 的零参数设计是关键创新——通过观察到最终线性层本身就定义了"完美解释"的形式，避免了任何额外参数或重建操作。200 FLOPs vs 205M FLOPs 的差距不只是效率问题，更是"代理复杂度是否污染忠实度评估"的根本性区别。
双度量设计弥补了单一度量的盲区——Top-1 只关注最大类、Norm L1 只关注 GT 类、SURF_MAE 不区分类别重要性、SURF_EMD 补充概率域评估。

局限与展望¶

目前 SURF 只适用于最终线性层——对中间层的解释无法评估，因为中间层到输出的映射是非线性的。扩展 SURF 到中间层是关键的未来工作。
只评估了忠实度，没有联合评估可解释性——一个忠实度低但高度可解释的方法可能仍有实用价值。理想的框架应该同时量化忠实度-可解释性 tradeoff。
实验中 U-CBEMs 每类只发现 5 个概念——这个设置对某些方法可能不公平。虽然 Fig.2 展示了变化概念数的趋势，但只在一个任务上做了。
分类任务为主——只有一个回归任务（年龄估计），对其他任务类型（如分割、生成）的推广未验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统揭示 U-CBEM 忠实度评估的系统性缺陷，SURF 设计优雅有力
实验充分度: ⭐⭐⭐⭐ 三个任务、七个 U-CBEMs、measure-over-measure 比较全面，但中间层评估缺失
写作质量: ⭐⭐⭐⭐⭐ 逻辑极为严谨，从框架统一到准则提出到 sanity check 到 benchmark 一气呵成
价值: ⭐⭐⭐⭐⭐ 对 XAI 社区有重大影响，可能改变 U-CBEM 领域的评估标准