跳转至

U-F²-CBM: CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

会议: CVPR 2026
arXiv: 2503.10981
代码: 无(论文中提供了伪代码)
领域: 可解释AI / 概念瓶颈模型
关键词: concept bottleneck model, CLIP-free, label-free, unsupervised, interpretability, TextUnlock

一句话总结

提出TextUnlock方法,通过训练轻量MLP将任意冻结视觉分类器的特征投射到文本嵌入空间(同时保持原分类器分布不变),无需CLIP、无需标注、无需训练线性探针,即可将任何legacy分类器转化为可解释的概念瓶颈模型——在40+架构上测试,超越甚至有监督的CLIP基CBM。

背景与动机

概念瓶颈模型(CBM)将密集特征映射为人类可解释的概念激活,再线性组合预测类别。现有CBM有三大限制:(1) 依赖CLIP提供图像-概念标注(将CLIP的bias引入legacy模型);(2) 需要人工标注或图文配对数据;(3) 需要训练线性分类器映射概念到类别。真实场景中,已存在高性能的task-specific legacy模型(如DINO、BeiT),用CLIP重建其推理过程会丢失原模型的决策逻辑。问题是:能否不依赖CLIP、不用标注,把任何冻结分类器直接转为CBM?

核心问题

如何在不依赖CLIP、不用任何图像-概念/图像-类别标注、不改变原分类器推理过程的前提下,将任意视觉分类器转化为可解释的概念瓶颈模型?

方法详解

整体框架

两步走:(1) TextUnlock——训练MLP将视觉特征映射到文本编码器空间,用原分类器的softmax分布作为蒸馏目标(非GT标签);(2) U-F²-CBM——冻结MLP后,用文本编码器编码概念集得到概念嵌入矩阵\(C\),通过余弦相似度得到概念激活,概念到类别的分类器权重\(W_{con}\)直接由\(C \cdot U^T\)(概念-类名文本相似度)无监督推导。

关键设计

  1. TextUnlock分布对齐:核心损失是 \(\mathcal{L} = -\sum_i^K o_i \log \frac{e^{s_i}}{\sum_j e^{s_j}}\),其中\(o\)是原分类器的softmax输出(非GT标签),\(s\)是MLP映射后特征与文本类名嵌入的余弦相似度。本质是知识蒸馏——但不是大模型蒸馏到小模型,而是将分类器的离散分布蒸馏到其视觉-语言对应分布。关键性质:(a) 不需要任何标签;(b) 保持原分类器的推理过程(accuracy仅降~0.2%);(c) 适用于任何架构。

  2. 无监督概念到类别映射:传统CBM需要训练线性探针\(W_{con}\)。本文观察到概念嵌入\(C\)和类名嵌入\(U\)都在同一文本空间,直接做文本-文本搜索 \(W_{con} = C \cdot U^T\) 即可。最终CBM输出为 \(S_{cn} = (\tilde{f} \cdot C^T) \cdot (C \cdot U^T) = \tilde{f} \cdot C^T C \cdot U^T\)——即原分类器\(\tilde{f} \cdot U^T\)被概念的Gram矩阵\(C^TC\)缩放,当\(C^TC = I\)时退化为原分类器。

  3. 推理时即时构建CBM:概念集可以在推理时任意切换——只需重新编码概念集即可,无需重新训练任何组件。这是CLIP基方法做不到的灵活性。

训练策略

  • MLP: 3层(\(n \to 2n \to 2n \to m\)),LayerNorm + GELU + Dropout(0.5)
  • 文本编码器: MiniLM (all-MiniLM-L12-v1),\(m=384\)
  • 概念集: 20K最常用英语单词,经过严格过滤(去除类名、同义词、父类等)
  • 训练: Adam lr=1e-4, cosine decay, 单张RTX 2080 Ti

实验关键数据

方法 模型 CBM Top-1↑ 备注
LF-CBM CLIP ResNet50 67.5 有监督+CLIP
DN-CBM CLIP ResNet50 72.9 有监督+CLIP
CDM CLIP ViT-B/16 79.3 有监督+CLIP
DCBM CLIP ViT-L/14 77.9 有监督+CLIP
U-F²-CBM ResNet50 78.1 无监督+无CLIP
U-F²-CBM EfficientNetv2-S 83.0 比CLIP ViT-L/14高5.1%
U-F²-CBM ConvNeXtV2-B@384 86.4 SOTA
U-F²-CBM BeiT-L/16 86.2
  • TextUnlock后分类精度损失:平均仅0.2%(40个模型)
  • 零样本图像描述:CIDEr 17.9/SPICE 6.9超越ZeroCap和ConZIC
  • 其他数据集:Places365/EuroSAT/DTD上同样超越CLIP基方法
  • 概念干预实验:去除类相关概念后accuracy降~20%,验证概念可解释性

消融实验要点

  • MLP消融(均值/随机/打乱输入):accuracy降至~0%,证明MLP学到有意义变换
  • MLP设计:2层+dim_factor=2最优(75.80 vs 1层72.48)
  • 文本编码器选择:不同Sentence-BERT模型差异极小(~0.05%)
  • 文本prompt鲁棒性:最好最差prompt差仅0.36%
  • 通用概念集 vs LLM生成概念集:通用集优2-3%(LLM生成有虚假关联)

亮点

  • "三免"的CBM:CLIP-free + Label-free + Unsupervised——首次同时摆脱所有三个限制
  • 分布蒸馏的insight极精妙:用原分类器的softmax分布(而非GT标签)训练MLP,自然保持推理逻辑不变
  • Gram矩阵视角:CBM本质上就是用概念Gram矩阵缩放原分类器——当概念集足够完备时退化为原分类器
  • 40+架构的大规模验证,CNN/Transformer/混合架构全覆盖
  • 推理时概念集可即时切换——真正的plug-and-play可解释性

局限性 / 可改进方向

  • 多义词问题(polysemy):类名"drake"会匹配到歌手而非鸟类,依赖概念集的质量
  • 仅用类名训练MLP——虽然刻意避免信息泄露,但可能限制了语义空间的完整性
  • 概念激活是余弦相似度,缺乏校准——高激活不一定意味着高语义重要性
  • 下游概念干预需要人工选择干预概念——自动化程度有限

与相关工作的对比

  • vs LF-CBM/LaBo/CDM:这些有监督方法需要CLIP提供概念标注,且需训练线性探针;U-F²-CBM完全无监督无CLIP,性能更高
  • vs T2C:T2C也映射特征到CLIP空间,但依赖CLIP监督且丢弃原分类器分布;TextUnlock保持原分布
  • vs DeVIL/LIMBER:需要标注的图文数据训练自回归生成器,且改变原模型推理过程

启发与关联

  • 分布蒸馏到视觉-语言空间的方法可能推广到其他需要可解释性的领域(如医学影像分类器)
  • 概念Gram矩阵视角为CBM提供了统一的数学框架
  • 零样本描述能力意味着任何分类器都可以"说出"它看到了什么

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 三重免除(CLIP/标签/监督)是CBM领域的重大突破,Gram矩阵视角优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 40+架构、4个数据集、全面消融、概念干预、零样本描述
  • 写作质量: ⭐⭐⭐⭐⭐ 动机清晰、方法简洁、理论insight深入、附录详尽(16节)
  • 价值: ⭐⭐⭐⭐⭐ 让可解释AI从CLIP依赖中解放出来,任意legacy模型均可plug-and-play转CBM