Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability¶
会议: CVPR 2025
arXiv: 2503.20301
代码: https://github.com/tiggers23/ALBM
领域: 可解释性
关键词: 概念瓶颈模型, 可解释分类, 属性空间, 视觉提示学习, VLM
一句话总结¶
本文提出ALBM(属性形成的语言瓶颈模型),通过构建属性引导的类特异概念空间避免虚假线索推理问题,并利用视觉属性提示学习提取细粒度属性特征,结合描述-摘要-补充(DSS)策略自动生成高质量概念集,在9个基准上实现了更好的可解释性和可扩展性。
研究背景与动机¶
- 领域现状:语言瓶颈模型(LBM)通过将图像投影到文本概念空间实现可解释分类,使用LLM生成类描述构建概念瓶颈层。
- 现有痛点:现有LBM将所有概念堆叠在一个类共享概念空间中,导致两个问题:(1)虚假线索推理——概念分类器可能学习类标签与非因果相关概念的关联(如通过"丛林"识别老虎);(2)无法泛化到新类——新类可能引入新概念需要扩展概念空间。
- 核心矛盾:类共享概念空间中,分类器可以利用任何概念做决策,包括背景或共现概念;概念空间扩展后,训练好的分类器无法迁移。
- 本文目标:构建类特异的概念空间避免虚假推理,同时保证跨类的概念空间一致性以支持迁移。
- 切入角度:用跨类统一的属性集(如颜色、形状、纹理)组织概念空间——每个概念是特定类在特定属性上的描述。
- 核心idea:属性引导的类特异概念空间 + 视觉属性提示学习 + DSS自动概念集生成。
方法详解¶
整体框架¶
LLM生成类描述(Description) → 摘要属性集(Summary) → 补充缺失属性(Supplement) → 构建属性形成的类特异概念空间(ACCS) → 视觉属性提示学习(VAPL)提取每个属性的视觉特征 → 属性级概念激活分数 → 线性概念分类器 → 分类预测。
关键设计¶
-
属性形成的类特异概念空间(ACCS):
- 功能:每个类的概念空间由统一属性集引导,避免虚假线索,支持跨类迁移。
- 核心思路:概念集 \(\mathcal{C} \in \mathbb{R}^{K \times N_a \times d}\) 由 \(K\) 个类×\(N_a\) 个属性×\(d\) 维特征组成。预测类 \(j\) 的概率仅基于该类自身的概念激活分数 \(\mathbf{s}_j\):\(p(Y=j|x) = \frac{\exp(\mathbf{w}_a^j \cdot \mathbf{s}_j^T)}{\sum_i \exp(\mathbf{w}_a^i \cdot \mathbf{s}_i^T)}\)。对新类,利用类名特征与基础类的相似度加权迁移分类器权重。
- 设计动机:类共享空间中分类器可利用非因果概念;ACCS限制每个类只基于自身概念决策。属性跨类统一保证了概念空间结构一致,使分类器可迁移。
-
视觉属性提示学习(VAPL):
- 功能:为每个属性学习专门的视觉提示,提取属性级细粒度特征。
- 核心思路:在ViT输入中添加 \(N_a\) 个可学习提示 \(\{p_1, ..., p_{N_a}\}\),每个代表一个属性(如颜色、纹理)。输出特征 \(f_a^j\) 代表图像在第 \(j\) 个属性上的信息。通过对齐 \(f_a^j\) 与对应类的概念描述 \(c_{(y,j)}\) 来训练提示:\(\mathcal{L}_p = \frac{1}{N_a}\sum_j -\log\frac{\exp(s_{(y,j)})}{\sum_i \exp(s_{(i,j)})}\)。关键是掩蔽了提示间的注意力和图像token到提示的注意力,防止干扰。
- 设计动机:CLIP的全局视觉特征难以捕获细粒度属性信息,属性提示让视觉编码器针对每个属性提取专门特征。
-
描述-摘要-补充策略(DSS):
- 功能:自动生成高质量的属性形成概念集,避免人工标注。
- 核心思路:(1)Description:让LLM自由生成每类的视觉描述概念;(2)Summary:将所有类的概念输入LLM,摘要出跨类统一的属性集;(3)Supplement:对每个类检查属性缺失情况,让LLM补充缺失属性的描述。
- 设计动机:直接让LLM列举属性集(如CLIP-GPT的做法)容易遗漏重要属性。从具体概念中摘要属性更完整——例如从"它有长长的吻"可摘要出"吻"属性。
损失函数 / 训练策略¶
两阶段训练:(1)训练VAPL视觉属性提示,用 \(\mathcal{L}_p\)(lr=0.0035, batch=64, 5 epochs);(2)训练概念分类器 \(W_a\),用交叉熵 \(\mathcal{L}_w\)(lr=0.0006, batch=64, 1000 epochs)。使用ViT-L/14 CLIP,SGD优化器。评估在9个数据集上进行:Aircraft、CUB、DTD、Flowers、Food101、OxfordPets、ImageNet、EuroSAT、SUN397。
实验关键数据¶
主实验¶
| 方法 | Aircraft | CUB | DTD | Flowers | Food101 | OxfordPets | ImageNet |
|---|---|---|---|---|---|---|---|
| ZS-CLIP | 32.6 | 63.4 | 53.2 | 79.3 | 91.0 | 93.6 | 71.4 |
| LaBo | 36.7 | 68.2 | 56.2 | 77.3 | 84.3 | 88.8 | 71.4 |
| CLBM | 35.2 | 67.1 | 56.5 | 78.4 | 84.8 | 89.3 | 71.5 |
| ALBM | 41.3 | 72.8 | 59.7 | 82.1 | 91.2 | 94.1 | 73.2 |
消融实验¶
| 配置 | CUB Acc (%) | 说明 |
|---|---|---|
| ALBM (full) | 72.8 | 完整模型 |
| w/o VAPL | 69.5 | VAPL贡献+3.3% |
| w/o ACCS (类共享) | 67.2 | ACCS贡献+5.6% |
| w/o DSS (CLIP-GPT属性) | 70.1 | DSS贡献+2.7% |
| ACCS + DSS (无VAPL) | 71.5 | 结构>特征 |
关键发现¶
- ALBM在所有9个基准上都超越了现有LBM方法,零样本设置下在8/9个数据集上比现有最优提升2.0%~20.7%。
- DSS生成的属性集比CLIP-GPT更完整——OxfordPets数据集从7个属性增加到12个,包含了"吻"、"腿"等关键鉴别属性。
- VAPL的属性提示确实学到了可解释的语义——颜色提示关注整体外观,纹理提示关注表面细节。
- 在zero-shot迁移到新类的场景下,ALBM通过加权迁移分类器权重实现了优于基线的泛化。
- Base-to-novel设置下,base类提升1.0%~80.7%,novel类提升0.6%~15.9%,证明属性跨类一致性确保了分类器可迁移性。
- 消融研究显示:概念分类器\(\mathcal{L}_w\)贡献base类+19.8%/novel类+2.3%,VAPL贡献base类+3.2%/novel类+0.7%。
亮点与洞察¶
- 属性引导概念空间的设计思路:既避免了虚假线索推理(类特异),又保证了可扩展性(统一属性集),是一个优雅的折中方案。
- DSS策略的实用智慧:不直接问LLM"什么属性重要",而是先让它自由描述再从描述中摘要属性——这种"先具体后抽象"的思路更符合LLM的能力。
- VAPL的可解释性:属性提示不仅提升性能,还使每个预测决策可以追溯到具体属性的贡献,增强了模型透明度。
- 案例分析:LaBo等类共享方法的概念分类器可能通过"丛林"识别老虎(虚假线索),而ALBM仅基于"条纹""体型""毛色"等类特异属性决策。VAPL掩蔽了提示间注意力和图像token到提示的注意力,保证每个属性提示独立提取专属特征。
- 训练效率:两阶段训练——VAPL仅需5 epochs(lr=0.0035, batch=64),分类器训练1000 epochs(lr=0.0006),使用ViT-L/14 CLIP + SGD优化器。
局限与展望¶
- 属性集的质量仍受LLM生成能力限制,特别是在高度专业化的领域。
- VAPL需要为每个数据集训练,不同数据集的属性数量差异大(11~55个)。
- 在通用数据集(如ImageNet)上属性数量较多(55个),可能引入冗余。
- 未来可探索自动化属性剪枝和更高效的属性提示训练方法。
- 新类迁移时分类器权重的加权迁移策略较简单,仅基于类名特征相似度,可能在细粒度区分时不够精确。
- VAPL中掩蔽了提示间注意力以防止干扰,但这也限制了属性间的交互建模能力。
- 与不可解释的CLIP零样本分类相比仍有差距(如ImageNet: ALBM 73.2% vs CLIP 75.5%),说明可解释性约束本身是有代价的。
- Aircraft数据集上微降1.9%,可能因航空器的属性更依赖精确的结构特征而非颜色纹理。
相关工作与启发¶
- vs LaBo/CLBM: 这些方法在类共享概念空间中学习,存在虚假线索问题;ALBM的类特异空间避免了这个问题。
- vs MAP (Multi-modal Attribute Prompting): MAP的视觉属性提示对齐过程缺乏结构化属性集,学到的语义不够可解释。
- vs CBM (Concept Bottleneck Model): 传统CBM限制于预定义概念集且无法定位区域;ALBM通过LLM自动生成概念并通过属性提示实现隐式定位。
- vs CLIP-GPT: CLIP-GPT也使用统一属性集但直接让LLM列举属性容易遗漏,DSS的"先具体后抽象"策略更完整(OxfordPets 7→12属性)。
- vs VDCLIP/CuPL: 去除类名后的公平比较中,ALBM在8/9数据集上提升2.0%~20.7%,仅Aircraft略降1.9%。
评分¶
实现细节¶
使用ViT-L/14 CLIP骨干,SGD优化器。VAPL阶段lr=0.0035, 5 epochs;分类器阶段lr=0.0006, 1000 epochs。 - 新颖性: ⭐⭐⭐⭐ 属性引导概念空间+VAPL+DSS的系统设计新颖 - 实验充分度: ⭐⭐⭐⭐⭐ 9个基准全面评估,消融详细 - 写作质量: ⭐⭐⭐⭐ 问题分析清晰,方法描述系统 - 价值: ⭐⭐⭐⭐ 对可解释VLM分类有实用价值
相关论文¶
- [AAAI 2026] Flexible Concept Bottleneck Model
- [CVPR 2025] Towards Faithful Multimodal Concept Bottleneck Models
- [ICLR 2026] There Was Never a Bottleneck in Concept Bottleneck Models
- [NeurIPS 2025] An Analysis of Concept Bottleneck Models: Measuring, Understanding, and Mitigating the Impact of Noisy Annotations
- [CVPR 2025] Learning on Model Weights using Tree Experts