Towards Faithful Multimodal Concept Bottleneck Models¶
会议: CVPR 2026
arXiv: 2603.13163
代码: 待确认
领域: 多模态VLM
关键词: 概念瓶颈模型, 可解释性, 泄漏缓解, KAN网络, 多模态分类
一句话总结¶
提出f-CBM——首个忠实的多模态概念瓶颈模型框架,通过可微分泄漏损失减少概念表示中的非预期信息泄漏,同时用Kolmogorov-Arnold Network (KAN) 预测头提升概念检测精度,在任务准确率、概念检测和泄漏减少间取得最优Pareto前沿。
研究背景与动机¶
- 领域现状:概念瓶颈模型(CBM)通过将预测路由通过人可理解的概念层来提供可解释性,已在视觉和NLP领域广泛研究,但在多模态场景中几乎未被探索。
- 现有痛点:CBM的忠实性面临双重挑战——(a) 概念检测不够准确,(b) 概念表示中存在泄漏(leakage):任务泄漏(概念编码了超出其语义的任务相关信号)和概念间泄漏(不同概念间编码了非预期的互信息)。
- 核心矛盾:现有方法将概念检测和泄漏缓解作为独立问题处理,改善一方面往往牺牲任务准确率。独立训练协议可减少泄漏但降低性能;残差连接虽吸收遗漏信息但降低了可解释性。
- 本文要解决什么:在多模态场景中同时保证概念检测准确性、泄漏最小化和任务准确率三个目标。
- 切入角度:初步分析发现任务泄漏和概念间泄漏高度正相关,且概念检测精度高的概念泄漏更低——因此同时优化概念检测和任务泄漏即可间接减少概念间泄漏。
- 核心idea一句话:用可微分的互信息估计做训练时泄漏正则化,加KAN层替代线性层增强预测表达力,联合优化三个目标。
方法详解¶
整体框架¶
输入为图像+文本对,CLIP视觉和文本编码器分别提取特征并拼接为 \(z=[f^v(x^v)\|f^t(x^t)]\),经概念瓶颈层 \(\Phi^C\) 映射到概念激活值,再经KAN层 \(\Phi^{\text{kan}}\) 产生最终分类预测。
关键设计¶
- 可微分泄漏损失 (Leakage Loss):
- 做什么:训练时显式最小化概念-任务泄漏(CTL)
- 核心思路:用核密度估计(KDE)近似互信息 \(\hat{I}(x;y) = N^{-1}\sum_i \log[\hat{p}(x_i|y_i)/\hat{p}(x_i)]\),使用高斯核保持梯度流。泄漏损失为 \(\mathcal{L}_{\text{leak}} = [\frac{\hat{I}(\hat{c}_i;y)-\hat{I}(c_i;y)}{H(y)}]^2\)
-
设计动机:之前的CTL度量基于离散分箱,破坏梯度信息无法反向传播。KDE估计保持可微分性,平方形式允许双向梯度信号(鼓励保留真概念信息同时惩罚额外泄漏)
-
KAN预测层 (Kolmogorov-Arnold Network Layer):
- 做什么:替代传统线性层连接概念激活和最终预测
- 核心思路:\(\Phi_o^{\text{kan}}(x) = s_o \times \sum_{i=1}^{N}\phi_{i,o}(x)\),每个 \(\phi_{i,o}\) 是一阶三角基函数的线性组合 \(\sum_m c_{i,o,m} \cdot B_m(x)\)
-
设计动机:线性层表达力不足可能迫使概念层编码额外信息来补偿,导致泄漏。KAN提供更强的非线性映射能力,使得概念层可以专注于准确的概念检测。单层KAN保持可解释性——可视化每个概念的响应曲线
-
余弦退火的泄漏损失权重:
- 做什么:渐增泄漏损失的权重 \(\alpha\) 从0到1
- 核心思路:训练初期让模型先学会概念检测,后期逐步引入泄漏惩罚
- 设计动机:过早引入泄漏约束可能干扰概念学习阶段
损失函数 / 训练策略¶
\(\mathcal{L} = \mathcal{L}_{\text{cls}} + \tilde{\lambda}\mathcal{L}_C + \tilde{\lambda}_{\text{leak}}\alpha\mathcal{L}_{\text{leak}}\),各辅助损失用running mean动态归一化,\(\alpha\) 余弦退火。CLIP backbone微调lr=1e-5,线性层用余弦退火schedule从0.1或0.01开始。
实验关键数据¶
主实验 (N24News数据集, CLIP-base)¶
| 方法 | %ACC↑ | c-RMSE↓ | CTL↓ | ICL↓ |
|---|---|---|---|---|
| Black-box | 98.5 | — | — | — |
| Indep.-CBM | 96.0 | 0.043 | 0.028 | 0.005 |
| Label-free | 98.2 | 1.264 | 0.212 | 0.050 |
| CT-CBM | 98.1 | 0.101 | 0.244 | 0.059 |
| f-CBM (ours) | 98.1 | 0.056 | 0.005 | 0.006 |
跨数据集和模型规模¶
| 数据集 | Backbone | f-CBM ACC | f-CBM CTL | f-CBM ICL |
|---|---|---|---|---|
| N24News | CLIP-base | 98.1 | 0.005 | 0.006 |
| N24News | CLIP-large | 98.5 | 0.004 | — |
| CUB-200 | CLIP-base | 93.7 | 0.008 | 0.009 |
| AG News | CLIP-base | 90.6 | 0.005 | 0.006 |
关键发现¶
- f-CBM在CTL上比Label-free降低了约40倍,同时保持相当的任务准确率
- KAN层改善概念检测(c-RMSE从0.101降至0.056),间接减少泄漏
- 泄漏损失和KAN层的贡献是互补的——只用其中一个效果不如联合使用
- 初步分析的假设得到验证:减少CTL确实同步降低了ICL
- f-CBM也适用于纯文本数据集(AG News、DBpedia),体现多模态框架的通用性
亮点与洞察¶
- 因果链分析:通过初步实验发现概念检测精度↔任务泄漏↔概念间泄漏的正相关关系,据此设计"优化两个就能改善第三个"的策略,分析驱动方法设计的典范。
- KDE可微分互信息估计:将离散的泄漏量化指标转变为可微分训练目标,这一技巧可推广到其他需要互信息约束的训练场景。
- KAN的可解释性应用:KAN不仅提升表达力,其逐概念响应曲线还提供了额外的可解释性维度,一举两得。
局限性 / 可改进方向¶
- KDE估计的计算复杂度为 \(O(N^2)\),对大规模概念集可能成为瓶颈
- 概念标注依赖LLM(Claude 4.5 Sonnet)和CLIP相似度,标注质量上限有限
- 仅使用CUB和N24News两个主要数据集,更多领域验证(如医疗、法律)将增强说服力
- 泄漏损失的余弦退火schedule是固定的,自适应schedule可能更优
相关工作与启发¶
- vs CT-CBM:CT-CBM用残差连接吸收泄漏信息,训练后移除以恢复可解释性;f-CBM通过泄漏损失从源头减少泄漏,更根本
- vs Independent-CBM:独立训练有最低泄漏但任务准确率差;f-CBM通过KAN+泄漏损失在联合训练中接近独立训练的泄漏水平
评分¶
- 新颖性: ⭐⭐⭐⭐ 可微分泄漏损失和KAN预测头的组合新颖且有效
- 实验充分度: ⭐⭐⭐ 数据集种类有限,CUB仅选了15类
- 写作质量: ⭐⭐⭐⭐ 初步分析部分写得好,方法动机清晰
- 价值: ⭐⭐⭐⭐ CBM忠实性是可解释AI的核心问题,多模态扩展有实际意义