Concept-wise Attention for Fine-grained Concept Bottleneck Models¶

会议: CVPR 2026
arXiv: 2604.15748
代码: 无（接受后公开）
领域: 多模态VLM
关键词: 概念瓶颈模型, 可解释性, CLIP, 对比学习, 细粒度对齐

一句话总结¶

CoAt-CBM 通过可学习的概念级视觉 query 和概念对比优化（CCO）实现了自适应细粒度图像-概念对齐，在保持高可解释性的同时超越现有概念瓶颈模型和黑盒模型。

研究背景与动机¶

领域现状：概念瓶颈模型（CBM）通过先预测一组人类可理解的概念，再基于概念做最终分类，提供了清晰的可解释决策路径。近期工作利用 CLIP 等预训练视觉语言模型增强了 CBM 的性能。

现有痛点：现有 VLM-based CBM 面临两个关键限制。第一，计算概念分数时，要么依赖冻结的粗粒度全局特征（ResCBM、HybridCBM），存在粗到细的粒度不匹配；要么使用最优传输（DOT-CBM）分配 patch token，依赖预训练结构先验且计算代价高。第二，常用的 BCE 损失独立处理每个概念，忽略了概念间的互斥性，无法利用负概念作为参照来提升正概念的区分能力。

核心矛盾：预训练偏置导致视觉特征与文本概念之间的细粒度对齐不准确，而独立优化的损失函数又无法让模型学到概念间的相对重要性。

本文目标：实现自适应的细粒度图像-概念对齐，同时提升分类性能和可解释性。

切入角度：引入可学习的概念级视觉 query 来自适应地解耦视觉特征，并用对比约束替代 BCE 来建模概念间关系。

核心 idea：每个概念配一个可学习 query，通过注意力机制从视觉特征中提取概念特定的表示，再用多正样本对比损失优化概念分数的相对排序。

方法详解¶

整体框架¶

CoAt-CBM 的流程为：（1）构建领域知识库和概念库；（2）CLIP 视觉编码器提取全局+patch 特征；（3）概念级注意力模块用可学习 query 提取概念特定视觉嵌入；（4）计算视觉嵌入与文本嵌入的余弦相似度得到概念分数向量；（5）线性分类器基于概念分数输出预测。

关键设计¶

概念级注意力模块（Concept-wise Attention Module）:
- 功能：为每个概念自适应地提取与之相关的视觉特征
- 核心思路：为 \(n\) 个概念分别定义可学习 query \(\mathbf{q}_i \in \mathbb{R}^{d_k}\)，将 CLIP 提取的全局+patch 特征 \(\mathbf{Z}\) 投影为 key 和 value。每个 query 通过缩放点积注意力计算权重 \(\bm{\alpha}_i = \text{Softmax}(\mathbf{K}\mathbf{q}_i / \sqrt{d_k})\)，加权聚合得到概念级视觉嵌入 \(\mathbf{e}_i = \mathbf{V}^\top \bm{\alpha}_i\)。不同 query 可以自动学会关注不同的视觉区域
- 设计动机：克服冻结全局特征的粒度不匹配和 OT 方法对结构先验的依赖，让模型动态地将视觉特征解耦为概念特定的表示
概念对比优化（Concept Contrastive Optimization, CCO）:
- 功能：通过对比约束提升概念分数的区分能力
- 核心思路：将概念分数分为正集 \(\mathbf{s}^+\)（与图像类别关联的概念）和负集 \(\mathbf{s}^-\)（不相关概念），用多正样本对比损失 \(\mathcal{L}_{CCO} = -\log \frac{\sum \exp(s_i^+/\tau)}{\sum \exp(s_i^+/\tau) + \sum \exp(s_i^-/\tau)}\) 迫使模型给正概念更高分数。这不是孤立地优化每个概念，而是让负概念作为参照来增强正概念的区分
- 设计动机：BCE 的独立假设限制了模型利用概念间关系的能力，对比优化显式建模正负概念间的相对大小关系
领域知识概念库构建:
- 功能：建立可靠的概念集合，减少幻觉和不完整性
- 核心思路：从领域专业网站收集每个类别的知识描述，作为 GPT-3.5-Turbo 生成概念的输入基础。概念生成完全基于领域知识库而非模型的有限知识，减少了幻觉和遗漏
- 设计动机：现有方法直接用 LLM 生成概念会出现幻觉或遗漏，可学习概念又缺乏语义清晰性

损失函数 / 训练策略¶

总损失 \(\mathcal{L} = \mathcal{L}_{cls} + \lambda \mathcal{L}_{CCO}\)，其中 \(\lambda\) 默认 0.5。使用 CLIP-ViT-L/14 + AdamW 优化器，单卡 3090 训练。

实验关键数据¶

主实验¶

方法	可解释	CIFAR-10	CIFAR-100	CUB-200
Linear Probe	✗	97.93	87.26	85.48
HybridCBM	✓	97.91	86.22	84.25
DOT-CBM	✓	97.75	84.75	83.76
CoAt-CBM	✓	98.51	89.19	89.13

消融实验¶

配置	CIFAR-10 CDR	CIFAR-10 CC
CoAt-CBM w/o CCO	9.88	25.48
CoAt-CBM_BCE	82.16	85.42
CoAt-CBM	89.64	94.76

关键发现¶

CoAt-CBM 在保持完全可解释性的同时超越了黑盒 Linear Probe，打破了"可解释性必然牺牲性能"的认知
CUB-200 上提升 4.88%（89.13 vs 84.25），细粒度分类提升尤为显著
CCO 对可解释性指标的提升极为关键：CDR 从 9.88% 提升到 89.64%，说明 BCE 下模型虽然分类准确但概念分数与图像内容不一致
概念级注意力模块始终优于 Adapter 和 LoRA 替代方案

亮点与洞察¶

CCO 揭示了 BCE 的根本缺陷：即使分类准确，BCE 训练的模型在概念级可解释性上几乎失效（CDR 仅 9.88%）。CCO 通过引入概念间对比，让分数排序与实际图像内容高度一致
few-shot 优势明显：CoAt-CBM 在 1-shot 到 16-shot 各档都超越 Linear Probe 和 LoRA-LP，说明概念先验提供了有效的归纳偏置
类-概念关联可视化清晰：CCO 使类-概念关联矩阵从噪声状态变为清晰的对角线结构

局限与展望¶

概念库的质量依赖领域知识的收集质量，对于冷门领域可能不够完善
每个概念一个 query 的设计在概念数量极多时可能面临内存瓶颈
目前主要在分类任务上验证，向检测/分割等更复杂任务的扩展有待探索

评分¶

新颖性: ⭐⭐⭐⭐ 概念级注意力 + CCO 的组合设计巧妙解决了两个关键问题
实验充分度: ⭐⭐⭐⭐⭐ 10 个数据集、全面的可解释性评估、few-shot 到 full 各设置覆盖
写作质量: ⭐⭐⭐⭐ 问题分析清晰，可解释性指标设计有说服力
价值: ⭐⭐⭐⭐⭐ 首次让可解释 CBM 全面超越黑盒模型，实用意义重大