跳转至

Attribute-formed Class-specific Concept Space: Endowing Language Bottleneck Model with Better Interpretability and Scalability

会议: CVPR 2025
arXiv: 2503.20301
代码: https://github.com/tiggers23/ALBM
领域: 可解释性
关键词: 概念瓶颈模型, 可解释分类, 属性空间, 视觉提示学习, VLM

一句话总结

本文提出ALBM(属性形成的语言瓶颈模型),通过构建属性引导的类特异概念空间避免虚假线索推理问题,并利用视觉属性提示学习提取细粒度属性特征,结合描述-摘要-补充(DSS)策略自动生成高质量概念集,在9个基准上实现了更好的可解释性和可扩展性。

研究背景与动机

  1. 领域现状:语言瓶颈模型(LBM)通过将图像投影到文本概念空间实现可解释分类,使用LLM生成类描述构建概念瓶颈层。
  2. 现有痛点:现有LBM将所有概念堆叠在一个类共享概念空间中,导致两个问题:(1)虚假线索推理——概念分类器可能学习类标签与非因果相关概念的关联(如通过"丛林"识别老虎);(2)无法泛化到新类——新类可能引入新概念需要扩展概念空间。
  3. 核心矛盾:类共享概念空间中,分类器可以利用任何概念做决策,包括背景或共现概念;概念空间扩展后,训练好的分类器无法迁移。
  4. 本文目标:构建类特异的概念空间避免虚假推理,同时保证跨类的概念空间一致性以支持迁移。
  5. 切入角度:用跨类统一的属性集(如颜色、形状、纹理)组织概念空间——每个概念是特定类在特定属性上的描述。
  6. 核心idea:属性引导的类特异概念空间 + 视觉属性提示学习 + DSS自动概念集生成。

方法详解

整体框架

LLM生成类描述(Description) → 摘要属性集(Summary) → 补充缺失属性(Supplement) → 构建属性形成的类特异概念空间(ACCS) → 视觉属性提示学习(VAPL)提取每个属性的视觉特征 → 属性级概念激活分数 → 线性概念分类器 → 分类预测。

关键设计

  1. 属性形成的类特异概念空间(ACCS):

    • 功能:每个类的概念空间由统一属性集引导,避免虚假线索,支持跨类迁移。
    • 核心思路:概念集 \(\mathcal{C} \in \mathbb{R}^{K \times N_a \times d}\)\(K\) 个类×\(N_a\) 个属性×\(d\) 维特征组成。预测类 \(j\) 的概率仅基于该类自身的概念激活分数 \(\mathbf{s}_j\)\(p(Y=j|x) = \frac{\exp(\mathbf{w}_a^j \cdot \mathbf{s}_j^T)}{\sum_i \exp(\mathbf{w}_a^i \cdot \mathbf{s}_i^T)}\)。对新类,利用类名特征与基础类的相似度加权迁移分类器权重。
    • 设计动机:类共享空间中分类器可利用非因果概念;ACCS限制每个类只基于自身概念决策。属性跨类统一保证了概念空间结构一致,使分类器可迁移。
  2. 视觉属性提示学习(VAPL):

    • 功能:为每个属性学习专门的视觉提示,提取属性级细粒度特征。
    • 核心思路:在ViT输入中添加 \(N_a\) 个可学习提示 \(\{p_1, ..., p_{N_a}\}\),每个代表一个属性(如颜色、纹理)。输出特征 \(f_a^j\) 代表图像在第 \(j\) 个属性上的信息。通过对齐 \(f_a^j\) 与对应类的概念描述 \(c_{(y,j)}\) 来训练提示:\(\mathcal{L}_p = \frac{1}{N_a}\sum_j -\log\frac{\exp(s_{(y,j)})}{\sum_i \exp(s_{(i,j)})}\)。关键是掩蔽了提示间的注意力和图像token到提示的注意力,防止干扰。
    • 设计动机:CLIP的全局视觉特征难以捕获细粒度属性信息,属性提示让视觉编码器针对每个属性提取专门特征。
  3. 描述-摘要-补充策略(DSS):

    • 功能:自动生成高质量的属性形成概念集,避免人工标注。
    • 核心思路:(1)Description:让LLM自由生成每类的视觉描述概念;(2)Summary:将所有类的概念输入LLM,摘要出跨类统一的属性集;(3)Supplement:对每个类检查属性缺失情况,让LLM补充缺失属性的描述。
    • 设计动机:直接让LLM列举属性集(如CLIP-GPT的做法)容易遗漏重要属性。从具体概念中摘要属性更完整——例如从"它有长长的吻"可摘要出"吻"属性。

损失函数 / 训练策略

两阶段训练:(1)训练VAPL视觉属性提示,用 \(\mathcal{L}_p\)(lr=0.0035, batch=64, 5 epochs);(2)训练概念分类器 \(W_a\),用交叉熵 \(\mathcal{L}_w\)(lr=0.0006, batch=64, 1000 epochs)。使用ViT-L/14 CLIP,SGD优化器。评估在9个数据集上进行:Aircraft、CUB、DTD、Flowers、Food101、OxfordPets、ImageNet、EuroSAT、SUN397。

实验关键数据

主实验

方法 Aircraft CUB DTD Flowers Food101 OxfordPets ImageNet
ZS-CLIP 32.6 63.4 53.2 79.3 91.0 93.6 71.4
LaBo 36.7 68.2 56.2 77.3 84.3 88.8 71.4
CLBM 35.2 67.1 56.5 78.4 84.8 89.3 71.5
ALBM 41.3 72.8 59.7 82.1 91.2 94.1 73.2

消融实验

配置 CUB Acc (%) 说明
ALBM (full) 72.8 完整模型
w/o VAPL 69.5 VAPL贡献+3.3%
w/o ACCS (类共享) 67.2 ACCS贡献+5.6%
w/o DSS (CLIP-GPT属性) 70.1 DSS贡献+2.7%
ACCS + DSS (无VAPL) 71.5 结构>特征

关键发现

  • ALBM在所有9个基准上都超越了现有LBM方法,零样本设置下在8/9个数据集上比现有最优提升2.0%~20.7%。
  • DSS生成的属性集比CLIP-GPT更完整——OxfordPets数据集从7个属性增加到12个,包含了"吻"、"腿"等关键鉴别属性。
  • VAPL的属性提示确实学到了可解释的语义——颜色提示关注整体外观,纹理提示关注表面细节。
  • 在zero-shot迁移到新类的场景下,ALBM通过加权迁移分类器权重实现了优于基线的泛化。
  • Base-to-novel设置下,base类提升1.0%~80.7%,novel类提升0.6%~15.9%,证明属性跨类一致性确保了分类器可迁移性。
  • 消融研究显示:概念分类器\(\mathcal{L}_w\)贡献base类+19.8%/novel类+2.3%,VAPL贡献base类+3.2%/novel类+0.7%。

亮点与洞察

  • 属性引导概念空间的设计思路:既避免了虚假线索推理(类特异),又保证了可扩展性(统一属性集),是一个优雅的折中方案。
  • DSS策略的实用智慧:不直接问LLM"什么属性重要",而是先让它自由描述再从描述中摘要属性——这种"先具体后抽象"的思路更符合LLM的能力。
  • VAPL的可解释性:属性提示不仅提升性能,还使每个预测决策可以追溯到具体属性的贡献,增强了模型透明度。
  • 案例分析:LaBo等类共享方法的概念分类器可能通过"丛林"识别老虎(虚假线索),而ALBM仅基于"条纹""体型""毛色"等类特异属性决策。VAPL掩蔽了提示间注意力和图像token到提示的注意力,保证每个属性提示独立提取专属特征。
  • 训练效率:两阶段训练——VAPL仅需5 epochs(lr=0.0035, batch=64),分类器训练1000 epochs(lr=0.0006),使用ViT-L/14 CLIP + SGD优化器。

局限与展望

  • 属性集的质量仍受LLM生成能力限制,特别是在高度专业化的领域。
  • VAPL需要为每个数据集训练,不同数据集的属性数量差异大(11~55个)。
  • 在通用数据集(如ImageNet)上属性数量较多(55个),可能引入冗余。
  • 未来可探索自动化属性剪枝和更高效的属性提示训练方法。
  • 新类迁移时分类器权重的加权迁移策略较简单,仅基于类名特征相似度,可能在细粒度区分时不够精确。
  • VAPL中掩蔽了提示间注意力以防止干扰,但这也限制了属性间的交互建模能力。
  • 与不可解释的CLIP零样本分类相比仍有差距(如ImageNet: ALBM 73.2% vs CLIP 75.5%),说明可解释性约束本身是有代价的。
  • Aircraft数据集上微降1.9%,可能因航空器的属性更依赖精确的结构特征而非颜色纹理。

相关工作与启发

  • vs LaBo/CLBM: 这些方法在类共享概念空间中学习,存在虚假线索问题;ALBM的类特异空间避免了这个问题。
  • vs MAP (Multi-modal Attribute Prompting): MAP的视觉属性提示对齐过程缺乏结构化属性集,学到的语义不够可解释。
  • vs CBM (Concept Bottleneck Model): 传统CBM限制于预定义概念集且无法定位区域;ALBM通过LLM自动生成概念并通过属性提示实现隐式定位。
  • vs CLIP-GPT: CLIP-GPT也使用统一属性集但直接让LLM列举属性容易遗漏,DSS的"先具体后抽象"策略更完整(OxfordPets 7→12属性)。
  • vs VDCLIP/CuPL: 去除类名后的公平比较中,ALBM在8/9数据集上提升2.0%~20.7%,仅Aircraft略降1.9%。

评分

实现细节

使用ViT-L/14 CLIP骨干,SGD优化器。VAPL阶段lr=0.0035, 5 epochs;分类器阶段lr=0.0006, 1000 epochs。 - 新颖性: ⭐⭐⭐⭐ 属性引导概念空间+VAPL+DSS的系统设计新颖 - 实验充分度: ⭐⭐⭐⭐⭐ 9个基准全面评估,消融详细 - 写作质量: ⭐⭐⭐⭐ 问题分析清晰,方法描述系统 - 价值: ⭐⭐⭐⭐ 对可解释VLM分类有实用价值

相关论文