跳转至

Explaining CLIP Zero-shot Predictions Through Concepts

会议: CVPR 2026
arXiv: 2603.28211
代码: https://github.com/oonat/ezpc
领域: 多模态VLM / 可解释性
关键词: CLIP, 零样本分类, 概念瓶颈模型, 可解释性, 视觉语言模型

一句话总结

本文提出 EZPC,通过学习一个线性投影矩阵将 CLIP 的图像-文本嵌入映射到可解释的概念空间,在几乎不损失零样本分类精度的前提下(CIFAR-100/CUB/ImageNet-100 上 H-mean 仅差约 1%),为 CLIP 的预测提供基于人类可理解概念的忠实解释,且推理开销仅增加约 0.1ms。

研究背景与动机

  1. 领域现状:CLIP 等视觉语言模型(VLM)在零样本图像识别上取得了巨大成功,通过将图像和文本对齐到共享语义空间,无需任务特定训练就能识别任意类别。与此同时,概念瓶颈模型(CBM)通过人类定义的概念中间层提供可解释的推理,但依赖概念标注且无法泛化到未见类别。

  2. 现有痛点:CLIP 的高维嵌入是纠缠的黑箱——用户无法理解为什么模型将某张图像与某个标签关联。CBM 虽然可解释但需要概念监督且局限于封闭世界(固定类别集合)。SpLiCE 将 CLIP 嵌入分解为概念组合但需要逐图优化(比CLIP慢59倍),Z-CBM 需要大型概念库和昂贵回归。

  3. 核心矛盾:可解释性和开放世界泛化能力似乎不可兼得——CBM 有可解释性但无法泛化,CLIP 能泛化但不可解释。

  4. 本文目标 如何在保持 CLIP 零样本能力的同时,让其预测通过人类可理解的概念来解释?

  5. 切入角度:CLIP 的内部表示可能已经隐式编码了人类可理解的语义结构,只需要一个恰当的投影就能将其"解码"出来。

  6. 核心 idea:学习单个线性投影矩阵 \(A\) 将 CLIP 的图像-文本嵌入共同映射到预定义的概念空间,同时用匹配损失保持可解释性、用重建损失保持语义忠实性。

方法详解

整体框架

EZPC 的工作流程:(1) 定义一组 \(m\) 个人类可理解的概念(如 "has feathers", "made of metal");(2) 学习投影矩阵 \(A \in \mathbb{R}^{d \times m}\) 将 CLIP 的 \(d\) 维嵌入空间映射到 \(m\) 维概念空间;(3) 在概念空间中通过图像概念向量 \(c_x = v_x A\) 和类别概念向量 \(c_k\) 的点积进行零样本分类;(4) 通过元素乘积 \(s_{x,k} = c_x \odot c_k\) 分解每个概念的贡献,提供忠实解释。

关键设计

  1. 共享概念投影:

    • 功能:将图像和文本嵌入统一映射到可解释的概念空间
    • 核心思路:定义可学习投影矩阵 \(A \in \mathbb{R}^{d \times m}\),其每一列对应一个概念方向。图像概念激活 \(c_x = v_x A\),类别概念激活 \(C_\mathcal{Y} = T A\)。分类通过 \(\hat{y} = \arg\max_k \langle c_x, c_k \rangle\) 在概念空间完成。由于 \(\langle c_x, c_k \rangle = \sum_{j=1}^{m} s_{x,k}^{(j)}\),每个概念维度对预测的贡献是直接可分解的
    • 设计动机:使用单个统一投影而非逐图优化,确保高效率;线性投影保证解释的忠实性——概念得分直接构成分类逻辑值,解释与决策过程完全一致
  2. 匹配损失 (Matching Loss):

    • 功能:确保投影矩阵 \(A\) 的列保持与已知概念嵌入对齐,维持可解释性
    • 核心思路:用 CLIP 文本编码器编码所有概念短语得到 \(\Phi \in \mathbb{R}^{d \times m}\),初始化 \(A = \Phi\),然后用 MSE 损失 \(\mathcal{L}_{\text{match}} = \frac{1}{dm}\sum_{i,j}(A_{ij} - \Phi_{ij})^2\) 约束 \(A\) 不偏离概念基底太远
    • 设计动机:如果不加约束,\(A\) 在训练中可能漂移到不再对应可解释概念的方向。锚定损失在灵活性和可解释性之间取得平衡
  3. 重建损失 (Reconstruction Loss):

    • 功能:保证概念空间中的相似度分布与 CLIP 原始嵌入空间中的一致
    • 核心思路:用 KL 散度衡量概念空间分布与 CLIP 原始分布的差距:\(\mathcal{L}_{\text{recon}} = \frac{1}{B}\sum_{i=1}^{B} \text{KL}(\text{softmax}(c_i C_\mathcal{Y}^\top) \| \text{softmax}(v_i T^\top))\)
    • 设计动机:确保概念分解后的分类决策与 CLIP 原始预测保持一致,即语义忠实性——不因添加可解释层而改变模型的核心判断

损失函数 / 训练策略

  • 总损失 \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{match}} + \lambda \mathcal{L}_{\text{recon}}\)
  • 大多数数据集 \(\lambda = 1\),CUB 和 Places365 使用 \(\lambda = 5\)
  • 概念集来自 LF-CBM 使用 GPT-3 生成的概念词汇表,并合并 ImageNet-1k 的大型概念池以获得更丰富覆盖
  • 所有实验使用 80/20 的 seen/unseen 类别划分

实验关键数据

主实验

广义零样本性能 (Harmonic Mean):

数据集 CLIP Z-CBM SpLiCE EZPC
CIFAR-100 0.408 0.365 0.270 0.403
ImageNet-100 0.693 0.585 0.389 0.682
CUB 0.474 0.189 0.070 0.465
ImageNet-1k 0.530 0.462 0.300 0.481
Places365 0.362 0.357 0.282 0.352

推理效率对比:

方法 延迟 (ms/img) 开销倍数
CLIP 5.77 1.0×
Z-CBM 542.34 94.0×
SpLiCE 338.51 58.7×
EZPC 5.90 ~1.0×

消融实验

\(\lambda\) Zero-shot Seen Unseen GZS H-mean
0.01 0.377 0.508 0.358
0.1 0.654 0.820 0.630
1 0.699 0.851 0.682
10 0.707 0.859 0.695
100 0.706 0.857 0.692

关键发现

  • EZPC 在大多数数据集上与 CLIP 性能差距在 1% 以内(CIFAR-100: -0.5%, ImageNet-100: -1.1%, CUB: -0.9%),而 SpLiCE 和 Z-CBM 常差 10-15%
  • \(\lambda\) 存在量化-质化权衡:大 \(\lambda\) 提升量化指标(更好保持 CLIP 分布),但定性分析显示小 \(\lambda\)(如1)产生更语义相关的概念激活
  • 概念空间具有良好的空间对齐性:在 CUB 的 Indigo Bunting 类上,正向概念"蓝灰色身体"的 Pointing Accuracy 达 96.7%,负向概念"红色面部"几乎为 0
  • 跨数据集迁移有效:在 ImageNet-100 上训练的投影矩阵可以直接迁移到 CIFAR-100 和 CUB,性能接近 CLIP

亮点与洞察

  • 极简的可解释性方案:仅需一个线性投影矩阵就实现了概念级解释,推理开销几乎为零(0.1ms),这使其适合大规模部署。与需要逐图优化的 SpLiCE(慢 59 倍)和 Z-CBM(慢 94 倍)形成鲜明对比。
  • 解释的忠实性保证:由于概念得分直接构成预测 logit(\(\langle c_x, c_k \rangle = \sum_j s_{x,k}^{(j)}\)),解释不是事后归因而是构造性忠实(faithfulness by construction)。这一点比 saliency map 等事后解释方法更可信。
  • 匹配-重建双目标的平衡设计\(\mathcal{L}_{\text{match}}\) 保可解释性,\(\mathcal{L}_{\text{recon}}\) 保性能,\(\lambda\) 控制两者平衡——这种设计模式可以迁移到其他需要在可解释性和性能间权衡的任务。

局限与展望

  • 线性投影假设限制表达能力:高度非线性的语义关系可能无法在概念空间中完全捕获
  • 概念集质量依赖:可解释性取决于概念词汇表的质量和多样性,概念集的偏差会影响解释的忠实度
  • 仅限分类任务:当前方法聚焦于分类,扩展到多模态推理、VQA 等任务是开放问题
  • ImageNet-1k 上性能差距较大(5%),大规模设置下概念分解的信息损失更明显
  • 改进方向:非线性概念映射、自适应概念发现、与 LLM 集成动态扩展概念词汇

相关工作与启发

  • vs SpLiCE: SpLiCE 将 CLIP 嵌入稀疏分解为概念向量组合,但需要逐图优化,慢 59 倍;EZPC 学习统一投影,推理近乎免费
  • vs Z-CBM: Z-CBM 从概念库重建嵌入进行零样本 CBM,但需要大型概念库和昂贵回归(慢 94 倍);EZPC 显著更高效且性能更好
  • vs LF-CBM: LF-CBM 需要概念标注训练且是闭集方法;EZPC 利用 LF-CBM 的概念集但实现开放世界零样本
  • CLIP 内部表示天然编码人类可对齐的结构这一发现,对理解大规模预训练模型的语义组织方式有理论价值

评分

  • 新颖性: ⭐⭐⭐⭐ 线性投影+双损失的方案简洁优雅,但技术深度有限
  • 实验充分度: ⭐⭐⭐⭐ 5个数据集+多种定性分析+跨域实验+效率对比,较全面
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,数学符号规范,实验展示直观
  • 价值: ⭐⭐⭐⭐ 为 VLM 可解释性提供了实用且高效的方案,有实际部署价值

相关论文