Towards Faithful Multimodal Concept Bottleneck Models¶

会议: CVPR 2026
arXiv: 2603.13163
代码: 待确认
领域: 多模态VLM
关键词: 概念瓶颈模型, 可解释性, 泄漏缓解, KAN网络, 多模态分类

一句话总结¶

提出f-CBM——首个忠实的多模态概念瓶颈模型框架，通过可微分泄漏损失减少概念表示中的非预期信息泄漏，同时用Kolmogorov-Arnold Network (KAN) 预测头提升概念检测精度，在任务准确率、概念检测和泄漏减少间取得最优Pareto前沿。

研究背景与动机¶

领域现状：概念瓶颈模型(CBM)通过将预测路由通过人可理解的概念层来提供可解释性，已在视觉和NLP领域广泛研究，但在多模态场景中几乎未被探索。
现有痛点：CBM的忠实性面临双重挑战——(a) 概念检测不够准确，(b) 概念表示中存在泄漏(leakage)：任务泄漏(概念编码了超出其语义的任务相关信号)和概念间泄漏(不同概念间编码了非预期的互信息)。
核心矛盾：现有方法将概念检测和泄漏缓解作为独立问题处理，改善一方面往往牺牲任务准确率。独立训练协议可减少泄漏但降低性能；残差连接虽吸收遗漏信息但降低了可解释性。
本文要解决什么：在多模态场景中同时保证概念检测准确性、泄漏最小化和任务准确率三个目标。
切入角度：初步分析发现任务泄漏和概念间泄漏高度正相关，且概念检测精度高的概念泄漏更低——因此同时优化概念检测和任务泄漏即可间接减少概念间泄漏。
核心idea一句话：用可微分的互信息估计做训练时泄漏正则化，加KAN层替代线性层增强预测表达力，联合优化三个目标。

方法详解¶

整体框架¶

输入为图像+文本对，CLIP视觉和文本编码器分别提取特征并拼接为 \(z=[f^v(x^v)\|f^t(x^t)]\)，经概念瓶颈层 \(\Phi^C\) 映射到概念激活值，再经KAN层 \(\Phi^{\text{kan}}\) 产生最终分类预测。

关键设计¶

可微分泄漏损失 (Leakage Loss)：
做什么：训练时显式最小化概念-任务泄漏(CTL)
核心思路：用核密度估计(KDE)近似互信息 \(\hat{I}(x;y) = N^{-1}\sum_i \log[\hat{p}(x_i|y_i)/\hat{p}(x_i)]\)，使用高斯核保持梯度流。泄漏损失为 \(\mathcal{L}_{\text{leak}} = [\frac{\hat{I}(\hat{c}_i;y)-\hat{I}(c_i;y)}{H(y)}]^2\)
设计动机：之前的CTL度量基于离散分箱，破坏梯度信息无法反向传播。KDE估计保持可微分性，平方形式允许双向梯度信号（鼓励保留真概念信息同时惩罚额外泄漏）
KAN预测层 (Kolmogorov-Arnold Network Layer)：
做什么：替代传统线性层连接概念激活和最终预测
核心思路：\(\Phi_o^{\text{kan}}(x) = s_o \times \sum_{i=1}^{N}\phi_{i,o}(x)\)，每个 \(\phi_{i,o}\) 是一阶三角基函数的线性组合 \(\sum_m c_{i,o,m} \cdot B_m(x)\)
设计动机：线性层表达力不足可能迫使概念层编码额外信息来补偿，导致泄漏。KAN提供更强的非线性映射能力，使得概念层可以专注于准确的概念检测。单层KAN保持可解释性——可视化每个概念的响应曲线
余弦退火的泄漏损失权重：
做什么：渐增泄漏损失的权重 \(\alpha\) 从0到1
核心思路：训练初期让模型先学会概念检测，后期逐步引入泄漏惩罚
设计动机：过早引入泄漏约束可能干扰概念学习阶段

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{\text{cls}} + \tilde{\lambda}\mathcal{L}_C + \tilde{\lambda}_{\text{leak}}\alpha\mathcal{L}_{\text{leak}}\)，各辅助损失用running mean动态归一化，\(\alpha\) 余弦退火。CLIP backbone微调lr=1e-5，线性层用余弦退火schedule从0.1或0.01开始。

实验关键数据¶

主实验 (N24News数据集, CLIP-base)¶

方法	%ACC↑	c-RMSE↓	CTL↓	ICL↓
Black-box	98.5	—	—	—
Indep.-CBM	96.0	0.043	0.028	0.005
Label-free	98.2	1.264	0.212	0.050
CT-CBM	98.1	0.101	0.244	0.059
f-CBM (ours)	98.1	0.056	0.005	0.006

跨数据集和模型规模¶

数据集	Backbone	f-CBM ACC	f-CBM CTL	f-CBM ICL
N24News	CLIP-base	98.1	0.005	0.006
N24News	CLIP-large	98.5	0.004	—
CUB-200	CLIP-base	93.7	0.008	0.009
AG News	CLIP-base	90.6	0.005	0.006

关键发现¶

f-CBM在CTL上比Label-free降低了约40倍，同时保持相当的任务准确率
KAN层改善概念检测（c-RMSE从0.101降至0.056），间接减少泄漏
泄漏损失和KAN层的贡献是互补的——只用其中一个效果不如联合使用
初步分析的假设得到验证：减少CTL确实同步降低了ICL
f-CBM也适用于纯文本数据集（AG News、DBpedia），体现多模态框架的通用性

亮点与洞察¶

因果链分析：通过初步实验发现概念检测精度↔任务泄漏↔概念间泄漏的正相关关系，据此设计"优化两个就能改善第三个"的策略，分析驱动方法设计的典范。
KDE可微分互信息估计：将离散的泄漏量化指标转变为可微分训练目标，这一技巧可推广到其他需要互信息约束的训练场景。
KAN的可解释性应用：KAN不仅提升表达力，其逐概念响应曲线还提供了额外的可解释性维度，一举两得。

局限性 / 可改进方向¶

KDE估计的计算复杂度为 \(O(N^2)\)，对大规模概念集可能成为瓶颈
概念标注依赖LLM（Claude 4.5 Sonnet）和CLIP相似度，标注质量上限有限
仅使用CUB和N24News两个主要数据集，更多领域验证（如医疗、法律）将增强说服力
泄漏损失的余弦退火schedule是固定的，自适应schedule可能更优

评分¶

新颖性: ⭐⭐⭐⭐ 可微分泄漏损失和KAN预测头的组合新颖且有效
实验充分度: ⭐⭐⭐ 数据集种类有限，CUB仅选了15类
写作质量: ⭐⭐⭐⭐ 初步分析部分写得好，方法动机清晰
价值: ⭐⭐⭐⭐ CBM忠实性是可解释AI的核心问题，多模态扩展有实际意义