Towards Faithful Multimodal Concept Bottleneck Models¶

会议: CVPR 2025
arXiv: 2603.13163
代码: 待确认
领域: multimodal_vlm
关键词: concept bottleneck model, interpretability, leakage, KAN, multimodal XAI

一句话总结¶

提出 f-CBM，一个基于 CLIP 的忠实多模态 Concept Bottleneck Model 框架，通过可微分的 leakage 损失和 Kolmogorov-Arnold Network 预测头联合解决概念检测准确性和信息泄漏问题，在任务精度、概念检测和 leakage 三者间达到最优权衡。

研究背景与动机¶

领域现状: Concept Bottleneck Models (CBMs) 通过将预测路由到人类可解释的概念层来实现可解释性，在视觉领域已有广泛研究（Label-free CBM、CT-CBM 等），但在多模态场景下几乎未被探索。

现有痛点: 标准 CBM 面临两大忠实性问题：(1) 概念检测不准确——CBL 可能未正确检测概念；(2) Leakage——概念表示中编码了非预期的额外信息（task leakage：概念编码了超出其语义的任务相关信号；inter-concept leakage：概念间编码了超过自然相关性的互信息）。

核心矛盾: 现有方法将概念检测和 leakage 缓解作为独立问题处理，改善一个往往牺牲另一个或任务精度（如 Independent-CBM 降低 leakage 但削弱任务精度；CT-CBM 用残差连接吸收 leakage 但降低可解释性）。

本文目标: 同时实现准确的概念检测、低 leakage 和高任务精度的多模态 CBM。

切入角度: 通过初步分析发现概念检测准确度与 task leakage 负相关、task leakage 与 inter-concept leakage 正相关，据此设计联合优化策略。

核心 idea: 用可微分的 leakage 损失显式减少泄漏 + KAN 预测头提升表达力改善概念检测，形成正反馈闭环。

方法详解¶

整体框架¶

CLIP 的视觉和文本编码器分别提取图像/文本嵌入，拼接为 $z = [f^v(x^v) \| f^t(x^t)] \in \mathbb{R}^{2d}$
Concept Bottleneck Layer (CBL) $\Phi^C: \mathbb{R}^{2d} \to \mathbb{R}^{|C|}$ 将多模态表示映射到概念激活分数
KAN 预测层 $\Phi^{\text{kan}}: \mathbb{R}^{|C|} \to \mathcal{Y}$ 替代传统线性层产出最终预测
训练目标: $\mathcal{L} = \mathcal{L}_{\text{cls}} + \tilde{\lambda} \mathcal{L}_C + \tilde{\lambda}_{\text{leak}} \alpha \mathcal{L}_{\text{leak}}$

关键设计¶

1. 初步分析：忠实性因素的交互关系 - 功能: 在 N24News 数据集上训练 baseline mCBM，分析概念检测精度与 leakage 的关系。 - 核心思路: 发现(1) 检测精度高的概念 task leakage 显著更低（p < 1% t-test）；(2) task leakage 与 inter-concept leakage 强正相关（Pearson/Spearman 均显著）。 - 设计动机: 据此提出假设——同时优化概念检测质量和减少 task leakage 可附带减少 inter-concept leakage，即只需显式优化两个目标即可间接改善三方面。

2. 可微分 Leakage 损失 - 功能: 基于 Kernel Density Estimation (KDE) 的可微分互信息估计器，显式最小化 Concept-Task Leakage。 - 核心思路: $$\mathcal{L}_{\text{leak}} = \left[\frac{\hat{I}(\hat{c}_i; y) - \hat{I}(c_i; y)}{H(y)}\right]^2$$ 用 Gaussian kernel 估计 $\hat{I}(x; y) = N^{-1} \sum_i \log[\hat{p}(x_i|y_i) / \hat{p}(x_i)]$，bandwidth 由 Scott's rule 自动确定 $\sigma = 1.06 \cdot \text{std}(x) \cdot N^{-1/5}$。使用平方而非 clamp-at-zero，保留双向梯度。 - 设计动机: 不同于 binning 方法，KDE 保持可微性可直接嵌入训练损失；显式减少 task leakage 会附带减少 inter-concept leakage。

3. KAN 预测层 - 功能: 用 Kolmogorov-Arnold Network 层替代传统线性层，每条边使用可学习单变量函数。 - 核心思路: $$\Phi_o^{\text{kan}}(x) = s_o \times \sum_{i=1}^{N} \phi_{i,o}(x), \quad \phi_{i,o}(x) = \sum_{m=1}^{M} c_{i,o,m} \cdot B_m(x)$$ 其中 $B_m$ 为 degree-1 三角形基函数，$s_o$ 为可学习缩放因子。使用单层 KAN 保持可解释性。 - 设计动机: 线性层表达力不足可能迫使概念表示编码额外信息（leakage 的一个来源）；KAN 提供足够表达力使概念层无需"作弊"，同时每条边的可学习函数可可视化为响应曲线保持解释性。

损失函数 / 训练策略¶

\[\mathcal{L} = \mathcal{L}_{\text{cls}} + \tilde{\lambda} \mathcal{L}_C + \tilde{\lambda}_{\text{leak}} \alpha \mathcal{L}_{\text{leak}}\]

$\mathcal{L}_{\text{cls}}$: cross-entropy 分类损失
$\mathcal{L}_C$: MSE 概念预测损失
$\mathcal{L}_{\text{leak}}$: KDE-based leakage 损失
各辅助损失通过 running mean 动态缩放到与分类损失可比的尺度
$\alpha$ 按 cosine annealing 从 0 到 1 递增，避免 leakage 损失干扰早期概念学习
CLIP backbone 以 $10^{-5}$ 固定学习率微调，线性层使用 cosine annealing（$10^{-1}$ 或 $10^{-2}$）

实验关键数据¶

主实验¶

N24News（CLIP-base / CLIP-large）:

方法	%ACC↑	c-RMSE↓	CTL↓	ICL↓
Black-box	98.5 / 98.5	-	-	-
Indep.-CBM	97.3 / 97.9	0.045 / 0.044	0.027 / 0.025	0.004 / 0.025
Label-free	98.1 / 98.3	1.806 / 1.723	0.388 / 0.271	0.130 / 0.061
CT-CBM	98.3 / 98.5	0.296 / 0.125	0.377 / 0.281	0.136 / 0.085
f-CBM	97.7 / 98.2	0.079 / 0.057	0.005 / 0.004	0.005 / 0.003

CUB-200（CLIP-base / CLIP-large）:

方法	%ACC↑	c-RMSE↓	CTL↓	ICL↓
Black-box	91.3 / 95.8	-	-	-
f-CBM	79.3 / 85.3	0.200 / 0.273	0.026 / 0.045	- / -

消融实验¶

f-CBM 在 Pareto 前沿上：在概念检测精度 vs 聚合 leakage 的权衡中，f-CBM 位于其他方法构成的 Pareto 前沿上（Figure 1），实现了最优的忠实性-性能权衡。

关键组件消融： - 仅 KAN（无 leakage 损失）: 改善概念检测但 leakage 仅部分降低 - 仅 leakage 损失（无 KAN）: leakage 显著降低但概念检测不如有 KAN 时好 - 两者结合（f-CBM）: 在所有指标上取得最优或接近最优

关键发现¶

f-CBM 将 leakage 降低 1-2 个数量级: CTL 从 ~0.3-0.4 降至 ~0.003-0.005，ICL 从 ~0.06-0.13 降至 ~0.002-0.005。
任务精度几乎不受损: f-CBM 在 N24News 上达到 97.7-98.2%，接近 black-box 的 98.5%。
假设得到验证: 显式减少 task leakage 确实附带减少了 inter-concept leakage。
多模态通用性: f-CBM 在文本-图像数据集（N24News、CUB）和纯文本数据集（AGNews、DBpedia）上均有效。
概念介入效果: 低 leakage 使概念介入（inference-time concept correction）更可靠，不会因依赖泄漏信息而产生反效果。

亮点与洞察¶

首个系统性地在多模态设置下研究 CBM 忠实性的工作
初步分析揭示了概念检测-task leakage-inter-concept leakage 的三角关系，为方法设计提供了理论指导
KDE-based 可微 leakage 损失是一个精巧的设计，使原本不可微的互信息度量可直接嵌入训练
KAN 层在保持可解释性（可视化响应曲线）的同时提升表达力，解决了线性层"误导"概念层的问题
验证了一个重要直觉：提供足够表达力的预测头可减少概念层编码额外信息的需求

局限与展望¶

CUB 数据集上任务精度与 black-box 差距较大（79.3% vs 91.3%），概念瓶颈的固有限制在细粒度任务上更明显
概念标注依赖 CLIP + sentence transformer 的自动标注，引入标注噪声
KDE 互信息估计的计算复杂度随 batch size 增大而上升
仅在分类任务上验证，检索、VQA 等其他多模态任务待探索
概念集的选择仍依赖 LLM 生成，自动化程度和质量有改善空间

评分¶

新颖性: ⭐⭐⭐⭐ KDE leakage 损失和 KAN 预测头的结合是创新的，初步分析的三角关系发现有洞察力
实验充分度: ⭐⭐⭐⭐ 4 个数据集、2 种 backbone、多种 baseline 对比，消融验证了各组件贡献
写作质量: ⭐⭐⭐⭐ 从初步分析到方法设计的逻辑链清晰，忠实性度量定义严谨
价值: ⭐⭐⭐⭐ 解决了 CBM 可解释性的核心信任问题，对可解释 AI 领域有重要推动