Explaining CLIP Zero-shot Predictions Through Concepts¶

会议: CVPR 2026
arXiv: 2603.28211
代码: https://github.com/oonat/ezpc
领域: 多模态VLM / 可解释性
关键词: CLIP, 零样本分类, 概念瓶颈模型, 可解释性, 视觉语言模型

一句话总结¶

本文提出 EZPC，通过学习一个线性投影矩阵将 CLIP 的图像-文本嵌入映射到可解释的概念空间，在几乎不损失零样本分类精度的前提下（CIFAR-100/CUB/ImageNet-100 上 H-mean 仅差约 1%），为 CLIP 的预测提供基于人类可理解概念的忠实解释，且推理开销仅增加约 0.1ms。

研究背景与动机¶

领域现状：CLIP 等视觉语言模型(VLM)在零样本图像识别上取得了巨大成功，通过将图像和文本对齐到共享语义空间，无需任务特定训练就能识别任意类别。与此同时，概念瓶颈模型（CBM）通过人类定义的概念中间层提供可解释的推理，但依赖概念标注且无法泛化到未见类别。
现有痛点：CLIP 的高维嵌入是纠缠的黑箱——用户无法理解为什么模型将某张图像与某个标签关联。CBM 虽然可解释但需要概念监督且局限于封闭世界（固定类别集合）。SpLiCE 将 CLIP 嵌入分解为概念组合但需要逐图优化（比CLIP慢59倍），Z-CBM 需要大型概念库和昂贵回归。
核心矛盾：可解释性和开放世界泛化能力似乎不可兼得——CBM 有可解释性但无法泛化，CLIP 能泛化但不可解释。
本文目标 如何在保持 CLIP 零样本能力的同时，让其预测通过人类可理解的概念来解释？
切入角度：CLIP 的内部表示可能已经隐式编码了人类可理解的语义结构，只需要一个恰当的投影就能将其"解码"出来。
核心 idea：学习单个线性投影矩阵 \(A\) 将 CLIP 的图像-文本嵌入共同映射到预定义的概念空间，同时用匹配损失保持可解释性、用重建损失保持语义忠实性。

方法详解¶

整体框架¶

EZPC 的工作流程：(1) 定义一组 \(m\) 个人类可理解的概念（如 "has feathers", "made of metal"）；(2) 学习投影矩阵 \(A \in \mathbb{R}^{d \times m}\) 将 CLIP 的 \(d\) 维嵌入空间映射到 \(m\) 维概念空间；(3) 在概念空间中通过图像概念向量 \(c_x = v_x A\) 和类别概念向量 \(c_k\) 的点积进行零样本分类；(4) 通过元素乘积 \(s_{x,k} = c_x \odot c_k\) 分解每个概念的贡献，提供忠实解释。

关键设计¶

共享概念投影:
- 功能：将图像和文本嵌入统一映射到可解释的概念空间
- 核心思路：定义可学习投影矩阵 \(A \in \mathbb{R}^{d \times m}\)，其每一列对应一个概念方向。图像概念激活 \(c_x = v_x A\)，类别概念激活 \(C_\mathcal{Y} = T A\)。分类通过 \(\hat{y} = \arg\max_k \langle c_x, c_k \rangle\) 在概念空间完成。由于 \(\langle c_x, c_k \rangle = \sum_{j=1}^{m} s_{x,k}^{(j)}\)，每个概念维度对预测的贡献是直接可分解的
- 设计动机：使用单个统一投影而非逐图优化，确保高效率；线性投影保证解释的忠实性——概念得分直接构成分类逻辑值，解释与决策过程完全一致
匹配损失 (Matching Loss):
- 功能：确保投影矩阵 \(A\) 的列保持与已知概念嵌入对齐，维持可解释性
- 核心思路：用 CLIP 文本编码器编码所有概念短语得到 \(\Phi \in \mathbb{R}^{d \times m}\)，初始化 \(A = \Phi\)，然后用 MSE 损失 \(\mathcal{L}_{\text{match}} = \frac{1}{dm}\sum_{i,j}(A_{ij} - \Phi_{ij})^2\) 约束 \(A\) 不偏离概念基底太远
- 设计动机：如果不加约束，\(A\) 在训练中可能漂移到不再对应可解释概念的方向。锚定损失在灵活性和可解释性之间取得平衡
重建损失 (Reconstruction Loss):
- 功能：保证概念空间中的相似度分布与 CLIP 原始嵌入空间中的一致
- 核心思路：用 KL 散度衡量概念空间分布与 CLIP 原始分布的差距：\(\mathcal{L}_{\text{recon}} = \frac{1}{B}\sum_{i=1}^{B} \text{KL}(\text{softmax}(c_i C_\mathcal{Y}^\top) \| \text{softmax}(v_i T^\top))\)
- 设计动机：确保概念分解后的分类决策与 CLIP 原始预测保持一致，即语义忠实性——不因添加可解释层而改变模型的核心判断

损失函数 / 训练策略¶

总损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{match}} + \lambda \mathcal{L}_{\text{recon}}\)
大多数数据集 \(\lambda = 1\)，CUB 和 Places365 使用 \(\lambda = 5\)
概念集来自 LF-CBM 使用 GPT-3 生成的概念词汇表，并合并 ImageNet-1k 的大型概念池以获得更丰富覆盖
所有实验使用 80/20 的 seen/unseen 类别划分

实验关键数据¶

主实验¶

广义零样本性能 (Harmonic Mean):

数据集	CLIP	Z-CBM	SpLiCE	EZPC
CIFAR-100	0.408	0.365	0.270	0.403
ImageNet-100	0.693	0.585	0.389	0.682
CUB	0.474	0.189	0.070	0.465
ImageNet-1k	0.530	0.462	0.300	0.481
Places365	0.362	0.357	0.282	0.352

推理效率对比:

方法	延迟 (ms/img)	开销倍数
CLIP	5.77	1.0×
Z-CBM	542.34	94.0×
SpLiCE	338.51	58.7×
EZPC	5.90	~1.0×

消融实验¶

\(\lambda\)	Zero-shot Seen	Unseen	GZS H-mean
0.01	0.377	0.508	0.358
0.1	0.654	0.820	0.630
1	0.699	0.851	0.682
10	0.707	0.859	0.695
100	0.706	0.857	0.692

关键发现¶

EZPC 在大多数数据集上与 CLIP 性能差距在 1% 以内（CIFAR-100: -0.5%, ImageNet-100: -1.1%, CUB: -0.9%），而 SpLiCE 和 Z-CBM 常差 10-15%
\(\lambda\) 存在量化-质化权衡：大 \(\lambda\) 提升量化指标（更好保持 CLIP 分布），但定性分析显示小 \(\lambda\)（如1）产生更语义相关的概念激活
概念空间具有良好的空间对齐性：在 CUB 的 Indigo Bunting 类上，正向概念"蓝灰色身体"的 Pointing Accuracy 达 96.7%，负向概念"红色面部"几乎为 0
跨数据集迁移有效：在 ImageNet-100 上训练的投影矩阵可以直接迁移到 CIFAR-100 和 CUB，性能接近 CLIP

亮点与洞察¶

极简的可解释性方案：仅需一个线性投影矩阵就实现了概念级解释，推理开销几乎为零（0.1ms），这使其适合大规模部署。与需要逐图优化的 SpLiCE（慢 59 倍）和 Z-CBM（慢 94 倍）形成鲜明对比。
解释的忠实性保证：由于概念得分直接构成预测 logit（\(\langle c_x, c_k \rangle = \sum_j s_{x,k}^{(j)}\)），解释不是事后归因而是构造性忠实（faithfulness by construction）。这一点比 saliency map 等事后解释方法更可信。
匹配-重建双目标的平衡设计：\(\mathcal{L}_{\text{match}}\) 保可解释性，\(\mathcal{L}_{\text{recon}}\) 保性能，\(\lambda\) 控制两者平衡——这种设计模式可以迁移到其他需要在可解释性和性能间权衡的任务。

局限与展望¶

线性投影假设限制表达能力：高度非线性的语义关系可能无法在概念空间中完全捕获
概念集质量依赖：可解释性取决于概念词汇表的质量和多样性，概念集的偏差会影响解释的忠实度
仅限分类任务：当前方法聚焦于分类，扩展到多模态推理、VQA 等任务是开放问题
ImageNet-1k 上性能差距较大（5%），大规模设置下概念分解的信息损失更明显
改进方向：非线性概念映射、自适应概念发现、与 LLM 集成动态扩展概念词汇

评分¶

新颖性: ⭐⭐⭐⭐ 线性投影+双损失的方案简洁优雅，但技术深度有限
实验充分度: ⭐⭐⭐⭐ 5个数据集+多种定性分析+跨域实验+效率对比，较全面
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，数学符号规范，实验展示直观
价值: ⭐⭐⭐⭐ 为 VLM 可解释性提供了实用且高效的方案，有实际部署价值