Explaining CLIP Zero-shot Predictions Through Concepts¶
会议: CVPR 2026
arXiv: 2603.28211
代码: https://github.com/oonat/ezpc
领域: 多模态VLM / 可解释性
关键词: CLIP, 零样本分类, 概念瓶颈模型, 可解释性, 视觉语言模型
一句话总结¶
本文提出 EZPC,通过学习一个线性投影矩阵将 CLIP 的图像-文本嵌入映射到可解释的概念空间,在几乎不损失零样本分类精度的前提下(CIFAR-100/CUB/ImageNet-100 上 H-mean 仅差约 1%),为 CLIP 的预测提供基于人类可理解概念的忠实解释,且推理开销仅增加约 0.1ms。
研究背景与动机¶
-
领域现状:CLIP 等视觉语言模型(VLM)在零样本图像识别上取得了巨大成功,通过将图像和文本对齐到共享语义空间,无需任务特定训练就能识别任意类别。与此同时,概念瓶颈模型(CBM)通过人类定义的概念中间层提供可解释的推理,但依赖概念标注且无法泛化到未见类别。
-
现有痛点:CLIP 的高维嵌入是纠缠的黑箱——用户无法理解为什么模型将某张图像与某个标签关联。CBM 虽然可解释但需要概念监督且局限于封闭世界(固定类别集合)。SpLiCE 将 CLIP 嵌入分解为概念组合但需要逐图优化(比CLIP慢59倍),Z-CBM 需要大型概念库和昂贵回归。
-
核心矛盾:可解释性和开放世界泛化能力似乎不可兼得——CBM 有可解释性但无法泛化,CLIP 能泛化但不可解释。
-
本文目标 如何在保持 CLIP 零样本能力的同时,让其预测通过人类可理解的概念来解释?
-
切入角度:CLIP 的内部表示可能已经隐式编码了人类可理解的语义结构,只需要一个恰当的投影就能将其"解码"出来。
-
核心 idea:学习单个线性投影矩阵 \(A\) 将 CLIP 的图像-文本嵌入共同映射到预定义的概念空间,同时用匹配损失保持可解释性、用重建损失保持语义忠实性。
方法详解¶
整体框架¶
EZPC 的工作流程:(1) 定义一组 \(m\) 个人类可理解的概念(如 "has feathers", "made of metal");(2) 学习投影矩阵 \(A \in \mathbb{R}^{d \times m}\) 将 CLIP 的 \(d\) 维嵌入空间映射到 \(m\) 维概念空间;(3) 在概念空间中通过图像概念向量 \(c_x = v_x A\) 和类别概念向量 \(c_k\) 的点积进行零样本分类;(4) 通过元素乘积 \(s_{x,k} = c_x \odot c_k\) 分解每个概念的贡献,提供忠实解释。
关键设计¶
-
共享概念投影:
- 功能:将图像和文本嵌入统一映射到可解释的概念空间
- 核心思路:定义可学习投影矩阵 \(A \in \mathbb{R}^{d \times m}\),其每一列对应一个概念方向。图像概念激活 \(c_x = v_x A\),类别概念激活 \(C_\mathcal{Y} = T A\)。分类通过 \(\hat{y} = \arg\max_k \langle c_x, c_k \rangle\) 在概念空间完成。由于 \(\langle c_x, c_k \rangle = \sum_{j=1}^{m} s_{x,k}^{(j)}\),每个概念维度对预测的贡献是直接可分解的
- 设计动机:使用单个统一投影而非逐图优化,确保高效率;线性投影保证解释的忠实性——概念得分直接构成分类逻辑值,解释与决策过程完全一致
-
匹配损失 (Matching Loss):
- 功能:确保投影矩阵 \(A\) 的列保持与已知概念嵌入对齐,维持可解释性
- 核心思路:用 CLIP 文本编码器编码所有概念短语得到 \(\Phi \in \mathbb{R}^{d \times m}\),初始化 \(A = \Phi\),然后用 MSE 损失 \(\mathcal{L}_{\text{match}} = \frac{1}{dm}\sum_{i,j}(A_{ij} - \Phi_{ij})^2\) 约束 \(A\) 不偏离概念基底太远
- 设计动机:如果不加约束,\(A\) 在训练中可能漂移到不再对应可解释概念的方向。锚定损失在灵活性和可解释性之间取得平衡
-
重建损失 (Reconstruction Loss):
- 功能:保证概念空间中的相似度分布与 CLIP 原始嵌入空间中的一致
- 核心思路:用 KL 散度衡量概念空间分布与 CLIP 原始分布的差距:\(\mathcal{L}_{\text{recon}} = \frac{1}{B}\sum_{i=1}^{B} \text{KL}(\text{softmax}(c_i C_\mathcal{Y}^\top) \| \text{softmax}(v_i T^\top))\)
- 设计动机:确保概念分解后的分类决策与 CLIP 原始预测保持一致,即语义忠实性——不因添加可解释层而改变模型的核心判断
损失函数 / 训练策略¶
- 总损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{match}} + \lambda \mathcal{L}_{\text{recon}}\)
- 大多数数据集 \(\lambda = 1\),CUB 和 Places365 使用 \(\lambda = 5\)
- 概念集来自 LF-CBM 使用 GPT-3 生成的概念词汇表,并合并 ImageNet-1k 的大型概念池以获得更丰富覆盖
- 所有实验使用 80/20 的 seen/unseen 类别划分
实验关键数据¶
主实验¶
广义零样本性能 (Harmonic Mean):
| 数据集 | CLIP | Z-CBM | SpLiCE | EZPC |
|---|---|---|---|---|
| CIFAR-100 | 0.408 | 0.365 | 0.270 | 0.403 |
| ImageNet-100 | 0.693 | 0.585 | 0.389 | 0.682 |
| CUB | 0.474 | 0.189 | 0.070 | 0.465 |
| ImageNet-1k | 0.530 | 0.462 | 0.300 | 0.481 |
| Places365 | 0.362 | 0.357 | 0.282 | 0.352 |
推理效率对比:
| 方法 | 延迟 (ms/img) | 开销倍数 |
|---|---|---|
| CLIP | 5.77 | 1.0× |
| Z-CBM | 542.34 | 94.0× |
| SpLiCE | 338.51 | 58.7× |
| EZPC | 5.90 | ~1.0× |
消融实验¶
| \(\lambda\) | Zero-shot Seen | Unseen | GZS H-mean |
|---|---|---|---|
| 0.01 | 0.377 | 0.508 | 0.358 |
| 0.1 | 0.654 | 0.820 | 0.630 |
| 1 | 0.699 | 0.851 | 0.682 |
| 10 | 0.707 | 0.859 | 0.695 |
| 100 | 0.706 | 0.857 | 0.692 |
关键发现¶
- EZPC 在大多数数据集上与 CLIP 性能差距在 1% 以内(CIFAR-100: -0.5%, ImageNet-100: -1.1%, CUB: -0.9%),而 SpLiCE 和 Z-CBM 常差 10-15%
- \(\lambda\) 存在量化-质化权衡:大 \(\lambda\) 提升量化指标(更好保持 CLIP 分布),但定性分析显示小 \(\lambda\)(如1)产生更语义相关的概念激活
- 概念空间具有良好的空间对齐性:在 CUB 的 Indigo Bunting 类上,正向概念"蓝灰色身体"的 Pointing Accuracy 达 96.7%,负向概念"红色面部"几乎为 0
- 跨数据集迁移有效:在 ImageNet-100 上训练的投影矩阵可以直接迁移到 CIFAR-100 和 CUB,性能接近 CLIP
亮点与洞察¶
- 极简的可解释性方案:仅需一个线性投影矩阵就实现了概念级解释,推理开销几乎为零(0.1ms),这使其适合大规模部署。与需要逐图优化的 SpLiCE(慢 59 倍)和 Z-CBM(慢 94 倍)形成鲜明对比。
- 解释的忠实性保证:由于概念得分直接构成预测 logit(\(\langle c_x, c_k \rangle = \sum_j s_{x,k}^{(j)}\)),解释不是事后归因而是构造性忠实(faithfulness by construction)。这一点比 saliency map 等事后解释方法更可信。
- 匹配-重建双目标的平衡设计:\(\mathcal{L}_{\text{match}}\) 保可解释性,\(\mathcal{L}_{\text{recon}}\) 保性能,\(\lambda\) 控制两者平衡——这种设计模式可以迁移到其他需要在可解释性和性能间权衡的任务。
局限与展望¶
- 线性投影假设限制表达能力:高度非线性的语义关系可能无法在概念空间中完全捕获
- 概念集质量依赖:可解释性取决于概念词汇表的质量和多样性,概念集的偏差会影响解释的忠实度
- 仅限分类任务:当前方法聚焦于分类,扩展到多模态推理、VQA 等任务是开放问题
- ImageNet-1k 上性能差距较大(5%),大规模设置下概念分解的信息损失更明显
- 改进方向:非线性概念映射、自适应概念发现、与 LLM 集成动态扩展概念词汇
相关工作与启发¶
- vs SpLiCE: SpLiCE 将 CLIP 嵌入稀疏分解为概念向量组合,但需要逐图优化,慢 59 倍;EZPC 学习统一投影,推理近乎免费
- vs Z-CBM: Z-CBM 从概念库重建嵌入进行零样本 CBM,但需要大型概念库和昂贵回归(慢 94 倍);EZPC 显著更高效且性能更好
- vs LF-CBM: LF-CBM 需要概念标注训练且是闭集方法;EZPC 利用 LF-CBM 的概念集但实现开放世界零样本
- CLIP 内部表示天然编码人类可对齐的结构这一发现,对理解大规模预训练模型的语义组织方式有理论价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 线性投影+双损失的方案简洁优雅,但技术深度有限
- 实验充分度: ⭐⭐⭐⭐ 5个数据集+多种定性分析+跨域实验+效率对比,较全面
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,数学符号规范,实验展示直观
- 价值: ⭐⭐⭐⭐ 为 VLM 可解释性提供了实用且高效的方案,有实际部署价值
相关论文¶
- [CVPR 2025] EZSR: Event-based Zero-Shot Recognition
- [AAAI 2026] OAD-Promoter: Enhancing Zero-shot VQA using Large Language Models with Object Attribute Description
- [ICLR 2026] BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs
- [NeurIPS 2025] SuperCLIP: CLIP with Simple Classification Supervision
- [NeurIPS 2025] Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals