CLIP-Free, Label-Free, Unsupervised Concept Bottleneck Models¶

会议: CVPR2026 arXiv: 2503.10981 代码: 待确认领域: 多模态VLM 关键词: Concept Bottleneck Model, 可解释性, 知识蒸馏, 无监督分类, 视觉-语言对齐, 零样本图像描述

一句话总结¶

提出 TextUnlock 方法将任意冻结视觉分类器的输出分布对齐到视觉-语言对应空间，进而构建无需CLIP、无需标签、无需训练线性探针的全无监督概念瓶颈模型 (U-F²-CBM)，在40+模型上超越有监督CLIP-based CBM。

研究背景与动机¶

概念瓶颈模型 (CBM) 的价值：CBM 将稠密特征映射为人类可解释的概念激活，再线性组合预测类别，是重要的可解释性工具，但现有方法严重依赖 CLIP 提供图像-概念标注。
CLIP 依赖的弊端：使用 CLIP 生成概念标注时，CBM 被锚定在 CLIP 嵌入空间，遗留模型需通过 CLIP 的相似性概念来解释，而非其自身学到的表征；还会引入 CLIP 的偏见（如排版偏见）。
遗留专家模型难以替代：真实场景中常存在高性能的任务专用遗留模型，在 CLIP 大规模图文语料上重训不现实（计算成本高、数据需求量大）。
人工标注成本高昂：不使用 CLIP 的方法需要人工标注图像-概念关联，耗时且昂贵。
所有 CBM 都需训练线性探针：现有所有 CBM 方法均需在概念激活之上训练线性分类器将概念映射到类别，无法做到全无监督。
重训会改变模型决策分布：对遗留模型进一步微调会改变其原始决策过程，通常不希望如此。

方法详解¶

整体框架¶

方法分为两个阶段：

阶段一 — TextUnlock：训练一个轻量 MLP 将冻结视觉分类器的特征投射到文本嵌入空间，同时保持原始分类分布不变。
阶段二 — U-F²-CBM：在 MLP 冻结后，利用对齐后的特征空间进行概念发现和概念-类别预测，全程无需额外训练。

TextUnlock 核心设计¶

给定冻结的视觉分类器 \(F\)（特征提取器 \(F_v\) + 线性分类头 \(W\)）和任意文本编码器 \(T\)：

MLP 映射：训练 MLP 将视觉特征 \(f = F_v(I)\) 投射为 \(\tilde{f} = \text{MLP}(f) \in \mathbb{R}^m\)，使其与文本嵌入同空间。
文本分类权重：将 \(K\) 个类名用模板 "an image of a {class}" 编码为 \(U \in \mathbb{R}^{K \times m}\)，作为新分类头权重。
分布对齐训练：计算投射特征与文本类名的余弦相似度 \(S = \tilde{f} \cdot U^T\)，用交叉熵损失对齐到原始分类器的软分布 \(o = \text{softmax}(f \cdot W)\)。

损失函数¶

\[L = -\sum_{i=1}^{K} o_i \log\left(\frac{e^{s_i}}{\sum_{j=1}^{K} e^{s_j}}\right)\]

该损失等价于原始分布 \(o\) 与预测分布间的 KL 散度（差一个常数熵项），可视为自蒸馏——将原始模型的分布蒸馏到其视觉-语言对应分布中。关键：无需任何真实标签，仅需类名文本。

U-F²-CBM 构建¶

概念发现：选取 \(Z = 20K\) 个英语常用词作为概念集 \(\mathcal{Z}\)，经严格过滤（去除与类名匹配、父类/子类、同义词等），用文本编码器编码为 \(C \in \mathbb{R}^{Z \times m}\)。对图像，概念激活为 \(\tilde{f} \cdot C^T \in \mathbb{R}^Z\)。

概念-类别分类器（无监督）：由于 \(U\) 和 \(C\) 均由同一文本编码器输出，直接计算 \(W^{con} = C \cdot U^T \in \mathbb{R}^{Z \times K}\)，权重代表每个概念与每个类名的文本相似度。

总体预测：

\[S_{cn} = (\tilde{f} \cdot C^T) \cdot (C \cdot U^T) = \tilde{f} \cdot \underbrace{C^T C}_{\text{Gram矩阵}} \cdot U^T\]

有趣的是，Gram 矩阵 \(C^T C\) 为单位阵时退化回原始特征分类器 \(\tilde{f} \cdot U^T\)，因此 CBM 转换仅是在原始分类器中插入了概念的 Gram 矩阵。

实验¶

主要结果¶

TextUnlock 分类精度保持（ImageNet-1K 验证集，17 个模型）：

模型	TextUnlock Top-1	原始 Top-1	Δ
ResNet50	75.80	76.13	−0.33
EfficientNetv2-M	84.95	85.11	−0.16
ViT-B/16	80.70	81.07	−0.37
Swinv2-Base	83.72	84.11	−0.39
BeiT-L/16	87.22	87.34	−0.12
DINOv2-B	84.40	84.22	+0.18

40 个模型平均精度下降仅约 0.2 个百分点。

U-F²-CBM vs 有监督 CLIP-based CBM（ImageNet-1K）：

方法	模型	Top-1
LF-CBM (有监督)	CLIP ViT-B/16	75.4
DN-CBM (有监督)	CLIP ViT-B/16	79.5
DCBM-SAM2 (有监督)	CLIP ViT-L/14	77.9
U-F²-CBM (无监督)	ViT-B/16v2	83.2
U-F²-CBM (无监督)	ConvNeXtV2-B@384	86.4

即使是 ImageNet-only 训练的 ResNet50 (73.9) 也超过了 400M 图文对训练的 CLIP ResNet50 CBM (72.9)。

跨数据集泛化¶

数据集	方法	模型	精度
Places365	CDM (CLIP)	CLIP-RN50	52.70
Places365	Ours	DenseNet161	53.42
EuroSAT	Baseline (CLIP)	CLIP-ViT-B/16	88.57
EuroSAT	Ours	ResNet50	94.22
DTD	Baseline (CLIP)	CLIP-ViT-B/16	61.86
DTD	Ours	ResNet50	68.88

在领域特定（场景/卫星/纹理）和细粒度、小类别数数据集上同样有效。

消融与关键发现¶

训练效率：仅训练轻量 MLP（视觉编码器、文本编码器、线性分类头全部冻结），可在标准硬件上完成，数据需求远小于 CLIP 训练。
概念集灵活性：概念集可在推理时任意替换（on-the-fly），因为只需用文本编码器编码新概念集即可。
概念干预：通过显式干预瓶颈层概念可控制预测、修复偏见（如 "dumbbell" 类中手臂偏见的文本化解释）。
零样本图像描述：将 TextUnlock 与 ZeroCap 结合，使任意视觉分类器可做零样本图像描述，ConvNeXtV2@384 在 COCO 上 CIDEr=17.9、SPICE=6.9，超越 CLIP-based 方法 (CIDEr=14.6, SPICE=5.5)。

亮点¶

三重 "Free"：同时实现 CLIP-free、Label-free、无监督概念-类别分类器，是首个全无监督 CBM。
优雅的数学洞察：CBM 转换等价于在原始分类器中插入概念 Gram 矩阵，当 Gram 矩阵为单位阵时退化回原始分类器。
极强的通用性：适用于 CNN/Transformer/混合架构共 40+ 模型，架构无关。
高数据效率：仅用 ImageNet-1K 训练即超越 400M 图文对训练的 CLIP 模型。
推理时灵活切换概念集：无需重训即可更换概念集构建 CBM。

局限性¶

概念发现质量依赖于文本编码器的语义空间质量，弱文本编码器可能导致概念激活不够精确。
Gram 矩阵引入的概念冗余可能在概念数量极大时影响性能。
零样本图像描述在 BLEU-4/METEOR 等 n-gram 指标上不及基于 CLIP 的方法（需额外组合式描述策略弥补）。
方法仅在分类任务上验证，尚未扩展到检测/分割等更复杂任务。
概念过滤依赖手动规则（去父类/同义词等），可能遗漏某些语义泄露。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 三重 Free 的全无监督 CBM 构建是全新贡献
实验充分度: ⭐⭐⭐⭐⭐ — 40+ 模型、4 个数据集、消融/干预/零样本描述
写作质量: ⭐⭐⭐⭐ — 数学推导清晰，Gram 矩阵洞察优雅
价值: ⭐⭐⭐⭐⭐ — 解除可解释 CBM 对 CLIP 的依赖，通用性极强