Learning Concept Bottleneck Models from Mechanistic Explanations¶
会议: ICLR2026
arXiv: 2603.07343
代码: GitHub
领域: graph_learning
关键词: Concept Bottleneck Model, Sparse Autoencoder, Mechanistic Interpretability, Explainable AI, Multimodal LLM
一句话总结¶
提出 Mechanistic CBM (M-CBM),利用 Sparse Autoencoder 从黑盒模型自身学到的特征中提取概念,再由多模态 LLM 命名和标注,构建可解释的 Concept Bottleneck Model,在控制信息泄露的条件下显著优于现有 CBM 方法。
背景与动机¶
Concept Bottleneck Model (CBM) 是一类先验可解释模型,通过中间层预测可理解的概念,再由概念预测最终类别。现有 CBM 的概念来源主要有四种:人工指定、知识图谱、LLM 生成、CLIP 通用概念。然而这些先验概念存在两个根本问题:
- 预测能力不足:先验概念未必对目标任务有足够区分度,甚至在数据中不可学习(如医学图像中 LLM 生成的 "warm to the touch" 等非视觉概念)
- 信息泄露严重:Concept Bottleneck Layer (CBL) 会隐式编码类别相关信息,即使用随机词作为概念也能恢复接近黑盒精度,使解释失去意义
作者受机械可解释性(Mechanistic Interpretability)领域的启发——特别是 SAE 在解纠缠模型特征方面的成功——提出了一个核心问题:能否直接从黑盒模型自身学到的概念出发,构建其可解释近似?
核心问题¶
如何在不依赖先验概念集的前提下,构建概念瓶颈模型,使其同时满足:(1) 高任务精度,(2) 概念可学习且有预测力,(3) 解释简洁且信息泄露可控?
方法详解¶
M-CBM 流水线包含四个阶段:
1. 概念提取(Sparse Autoencoder)¶
给定训练好的黑盒 backbone \(\phi\),用 SAE 对其激活 \(\mathbf{a}^{(i)} = \phi(\mathbf{x}^{(i)})\) 进行稀疏分解:
- 编码器:\(\mathbf{h} = \text{ReLU}(\mathbf{W}_E^\top(\mathbf{a} - \mathbf{b}_D) + \mathbf{b}_E)\)
- 解码器:\(\hat{\mathbf{a}} = \mathbf{W}_D^\top \mathbf{h} + \mathbf{b}_D\)
- 训练目标:重构损失 + L1 稀疏惩罚 \(\mathcal{L}_{\text{SAE}} = \|\mathbf{a} - \hat{\mathbf{a}}\|_2^2 + \lambda_{\text{SAE}} \|\mathbf{h}\|_1\)
- 扩展因子 \(m/n\) 控制在 4x 以内以保证标注成本可控
- 过滤死亡/近死亡神经元:以不降低黑盒恢复交叉熵损失超过 ~1% 为阈值
2. 概念命名(Multimodal LLM)¶
对每个存活的 SAE 隐层神经元 \(h_j\):
- 选取最大激活样本(10 张)及对比样本(10 张,含随机 + 高余弦相似度负样本)
- 为激活样本生成概念显著性图(基于解码器权重 \(\mathbf{W}_D\) 的加权特征图)
- 将配对图像送入 GPT-4.1,生成自然语言概念描述
- 明确指示不使用类别名,若违规则重试
- 用 text-embedding-3-large 嵌入所有概念名,合并余弦相似度 > 0.98 的重复概念
3. 数据集标注(部分标注策略)¶
概念名只是假设而非真实功能描述,因此不直接用 SAE 隐层作瓶颈,而是训练独立的 CBL:
- 每个概念标注至多 1000 张图像(500 活跃 + 500 非活跃)
- 活跃样本选取第 95 百分位以上激活的图像
- 非活跃样本一半随机、一半为与活跃样本最相似的负例
- 标注方式:25 张图排成 5×5 网格,连同参考网格送入 GPT-4.1 判断概念存在/缺失
- 两类样本均按类别分层,保证标注不偏向特定类
- 标注结果为三元向量 \(z_k^{(i)} \in \{-1, 0, 1\}\)(存在/缺失/未标注)
4. CBM 训练¶
- CBL:从冻结 backbone 特征预测 \(K\) 个概念,用 Masked BCE Loss 在已标注样本对 \(\Omega\) 上优化,加入类别不平衡权重
- 稀疏线性分类器:在概念 logit(z-normalized)上训练,使用 GLM-SAGA 求解器,elastic-net 惩罚(\(\alpha=0.99\)),通过调节 \(\lambda_{\text{CLF}}\) 控制稀疏度
NCC 稀疏度度量¶
作者指出先前的 NEC(Number of Effective Concepts)度量限制了概念总数 \(K\),对类内多样性高的数据集不公平。提出 NCC(Number of Contributing Concepts):
其中 \(u_{k,r}^{(i)} = |[g(\mathbf{a}^{(i)})]_k \cdot [\mathbf{W}_F]_{k,r}|\) 为概念 \(k\) 对类别 \(r\) 的绝对贡献。NCC 在决策层面衡量稀疏度,不硬性限制概念总数,更适合多样性高的任务。
实验关键数据¶
数据集与 Backbone:CUB (ResNet18, 200类)、ISIC2018 (ResNet50, 7类)、ImageNet (ResNet50, 1000类)
| 方法 | CUB NCC=5 | CUB avg | ISIC NCC=5 | ISIC avg | ImageNet NCC=5 | ImageNet avg |
|---|---|---|---|---|---|---|
| 黑盒上限 | 76.67% | - | 79.37% | - | 76.15% | - |
| LF-CBM | 58.08% | 71.09% | 61.44% | 67.55% | 62.20% | 69.08% |
| DN-CBM (RN) | 38.21% | 48.98% | 35.38% | 54.61% | 46.71% | 57.24% |
| VLG-CBM_CA | 69.12% | 72.25% | 64.55% | 72.61% | N/A | N/A |
| M-CBM | 73.70% | 74.18% | 72.75% | 75.51% | 72.18% | 73.64% |
概念预测质量(ROC-AUC):M-CBM 在 CUB 上 Macro 90.04% vs VLG-CBM_CA 62.03%,在 ISIC 上 80.57% vs 73.37%,显示从模型自身提取的概念更易学习。
信息泄露验证:在 CUB 上用随机词替换概念,原始 VLG-CBM 在 NCC=1.5 即达黑盒精度(严重泄露),去除类别条件标注后泄露减少,M-CBM 在低 NCC 区间显著优于随机基线。
亮点¶
- 概念来源创新:首次系统地将 SAE 提取的模型内部概念用于 CBM 构建,避免先验概念与任务不匹配的问题
- NCC 度量:比 NEC 更灵活,在决策层面衡量解释简洁度,不限制概念总数
- 信息泄露控制:通过类别无关标注 + 稀疏度控制双管齐下,并用随机词实验定量展示泄露程度
- 概念可学习性大幅提升:ROC-AUC 从 62% 提升到 90%(CUB),证明模型自身概念确实更易学习
- 高效标注策略:用 SAE 激活预筛候选图像,每概念仅需标注 ~1k 张,避免全数据集标注的计算瓶颈
局限性 / 可改进方向¶
- 概念学习仍是黑盒:最终层可解释,但 CBL 本身仍是黑盒,缺乏系统方法验证概念是否按预期学习
- 信息泄露未根除:即使控制 NCC,随机词仍能达到远超随机的精度,泄露问题本质未解决
- SAE 需要人工监督:不如其他方法即插即用,需确认 SAE 提取的概念可解释且标注质量可靠
- 标注成本高:每个概念 ~0.14 USD,ImageNet 2648 概念标注仍有较大开销
- 仅限图像分类:未扩展到检测、分割等视觉任务,也未探索非视觉域的迁移
与相关工作的对比¶
| 方法 | 概念来源 | 是否需 CLIP | 泄露控制 | ImageNet 可行性 |
|---|---|---|---|---|
| LF-CBM | LLM 生成 + CLIP-Dissect | 否 | 稀疏惩罚 | 可行 |
| VLG-CBM | LLM 生成 + GroundingDINO | 否 | NEC | ~300 GPU-days,不可行 |
| DN-CBM | CLIP SAE 隐层 | 是(仅限CLIP) | 稀疏惩罚 | 可行但精度低 |
| M-CBM | 黑盒 SAE + MLLM 标注 | 否 | NCC | 可行且最优 |
DN-CBM 是最接近的先驱工作,也用 SAE,但受限于 CLIP backbone,且直接用 SAE 隐层作瓶颈而非训练独立 CBL。M-CBM 通过 MLLM 标注 + 独立 CBL 训练解决了这两个限制。
启发与关联¶
- SAE 在将黑盒模型特征分解为可解释概念方面的有效性为 模型蒸馏 和 知识发现 提供了新范式
- NCC 度量的思想(按贡献排序取覆盖阈值)可推广到其他需要稀疏解释的场景
- 部分标注策略(SAE 激活引导 + 网格批量标注)对大规模数据集的高效标注有借鉴意义
- 未来可结合电路级分析(circuit-level analysis)进一步增强概念间的因果关系建模
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将 MI 领域的 SAE 工具引入 CBM 框架是自然但有效的创新
- 实验充分度: ⭐⭐⭐⭐ — 三个不同规模数据集 + 泄露分析 + 概念质量评估,但缺少 ViT backbone 的 M-CBM 实验
- 写作质量: ⭐⭐⭐⭐⭐ — 动机清晰、方法流程图直观、泄露分析深入
- 价值: ⭐⭐⭐⭐ — 为可解释 AI 提供了更务实的概念来源方案,NCC 度量值得推广