跳转至

Concepts' Information Bottleneck Models

会议: ICLR 2026
arXiv: 2602.14626
代码: 有(论文中提到)
领域: LLM效率
关键词: 概念瓶颈模型, 信息瓶颈, 可解释性, 正则化, 概念泄漏

一句话总结

在概念瓶颈模型(CBM)的概念层引入信息瓶颈(IB)正则化,通过惩罚 I(X;C) 同时保留 I(C;Y) 来学习最小充分概念表示,在六个CBM变体和三个基准上一致提升预测性能和概念干预可靠性。

研究背景与动机

概念瓶颈模型(Concept Bottleneck Models, CBMs)是一类可解释AI方法,其核心思想是在输入X和预测Y之间插入一个人类可理解的概念层C,让决策过程透明可解释。这种设计允许人类专家在推理时干预概念值(concept intervention),从而纠正模型的错误推理。

然而,现有CBM存在两个根本性问题:

准确率下降:强制经过概念瓶颈会导致信息丢失,模型准确率往往低于端到端黑箱模型。这是因为概念层可能编码了与任务无关的冗余信息,同时丢失了部分任务相关信息。

概念泄漏(Concept Leakage):概念表示中混入了与概念定义无关的额外信息,这些"泄漏"信息虽然可能短期提升准确率,但破坏了概念层的忠实性(faithfulness),使得概念干预变得不可靠——修改一个概念的值可能产生不可预期的连锁反应。

这两个问题的核心矛盾在于:概念层编码的信息既不够"纯净"(有泄漏),又不够"充分"(丢失任务信息)。

本文的核心洞察是:这个矛盾恰好可以用信息瓶颈(Information Bottleneck)理论来解决。IB原理的目标就是学习一个关于输入X的最小充分统计量——在概念层的语境下,就是让概念表示C只保留预测Y所需的最少信息,同时压缩掉与任务无关的冗余信息。

方法详解

整体框架

本文在标准CBM训练流程中加入一个额外的IB正则化项,不需要修改模型架构或增加额外监督信号。标准CBM的训练目标是最小化概念预测损失和任务预测损失的加权和,本文在此基础上添加一个惩罚项来约束 I(X;C):

\[\mathcal{L}_{total} = \mathcal{L}_{task} + \lambda_{c} \mathcal{L}_{concept} + \beta \cdot R_{IB}\]

其中 \(R_{IB}\) 是IB正则化项,\(\beta\) 控制压缩强度。关键在于:保留(甚至增强)概念层到标签的信息 I(C;Y),同时压缩输入到概念层的信息 I(X;C)。

关键设计

  1. 变分IB目标(Variational IB):直接计算 I(X;C) 是不可行的,因此采用变分上界近似。引入一个可学习的边际分布 q(C) 来逼近真实边际分布 p(C),用 KL 散度 KL[p(C|X) || q(C)] 作为 I(X;C) 的上界。具体实现中,假设 q(C) 为多元高斯分布,通过参数化其均值和方差来优化这个上界。这种方法的优势在于理论严谨,直接优化信息量的代理目标。

  2. 熵基代理(Entropy-based Surrogate):变分方法虽然理论上优雅,但引入了额外的参数(边际分布的参数)。作为替代,本文提出一种更简洁的基于熵的代理方法:直接最小化概念层输出的条件熵估计。这种方法不需要额外的可学习参数,计算开销更小,适合大规模应用。其核心思想是鼓励概念层输出的分布更加集中,减少不必要的信息编码。

  3. 架构无关的集成方式:两种正则化方法都是作为额外的损失项加入到标准CBM训练中,不需要修改模型的网络结构。这意味着它可以直接应用于现有的各种CBM变体,包括联合训练、顺序训练、独立训练等不同训练范式。

损失函数 / 训练策略

总训练目标包含三个部分: - 任务损失:交叉熵损失,用于预测目标标签Y - 概念预测损失:二元交叉熵,用于从输入X预测概念C - IB正则化项:变分KL散度项或熵基代理项,控制概念层的信息压缩程度

超参数 \(\beta\) 的选择至关重要:太小则正则化效果不明显,太大则过度压缩导致信息丢失。论文通过在验证集上搜索最优 \(\beta\) 值。

实验关键数据

主实验

论文在三个基准数据集上评估了六个CBM家族:

CBM变体 数据集 无IB +IB 变化
Joint CBM CUB-200 基线 提升 ✓ 一致提升
Sequential CBM CUB-200 基线 提升 ✓ 一致提升
Independent CBM CUB-200 基线 提升 ✓ 一致提升
CEM CUB-200 基线 提升 ✓ 一致提升
CBM-AUC CUB-200 基线 提升 ✓ 一致提升
ProbCBM CUB-200 基线 提升 ✓ 一致提升

在所有六个CBM家族和三个基准上,IB正则化版本均一致超越对应的原始版本。

消融实验

配置 关键指标 说明
无IB正则化 (Vanilla) 基线 标准CBM训练
变分IB (β=小) 轻微提升 温和压缩
变分IB (β=中) 最佳 最优压缩-保留平衡
变分IB (β=大) 下降 过度压缩
熵基代理 与变分IB可比 更简洁,无额外参数

关键发现

  • IB正则化在所有测试的CBM变体上都带来了一致的提升,说明其方法具有强泛化性
  • 信息平面(Information Plane)分析确认了IB正则化确实在压缩 I(X;C) 的同时保持了 I(C;Y)
  • 概念干预(TTI)实验表明IB正则化版本对概念干预的响应更加可预测和可靠
  • 该方法解决了此前不同CBM评估中的不一致性问题,通过统一训练协议展示了鲁棒的增益

亮点与洞察

  • 理论优雅:将CBM的经验性问题(概念泄漏、准确率下降)统一到信息论框架下,用IB原理自然地给出解决方案
  • 架构无关:作为纯正则化方法,可以即插即用地应用到任何现有CBM变体中
  • 双重受益:既提升了预测准确率,又改善了概念层的忠实性,打破了"准确率vs可解释性"的常见trade-off
  • 信息平面验证:通过信息平面分析直观展示了正则化的效果,增加了方法的可信度

局限与展望

  • IB正则化的超参数 \(\beta\) 需要仔细调优,不同数据集和CBM变体可能需要不同的最优值
  • 变分方法需要对边际分布做高斯假设,可能在某些场景下不够灵活
  • 论文主要在中小规模视觉分类任务上验证,大规模和非视觉任务上的效果有待探索
  • 概念注释的获取成本仍然是CBM方法的通用瓶颈

相关工作与启发

  • vs 标准CBM (Koh et al., 2020): 标准CBM没有约束概念层的信息量,容易出现概念泄漏;IB正则化提供了原则性的解决方案
  • vs CEM (Zarlenga et al., 2022): CEM通过概念嵌入增加概念层表达能力,但缺乏信息压缩约束;IB正则化可叠加其上进一步提升
  • vs Deep VIB (Alemi et al., 2017): Deep VIB在一般分类中应用IB,本文专门化到CBM概念层,利用结构化特性设计更有效正则化

评分

  • 新颖性: ⭐⭐⭐⭐ 将信息瓶颈引入CBM是自然且优雅的,但核心技术(VIB)已有先例
  • 实验充分度: ⭐⭐⭐⭐ 六个CBM变体×三个基准的全面评估,信息平面分析增加了可信度
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,实验设置规范
  • 价值: ⭐⭐⭐⭐ 为CBM社区提供了简洁有效的通用改进工具,即插即用的特性实用性强

评分

  • 新颖性: 待评
  • 实验充分度: 待评
  • 写作质量: 待评
  • 价值: 待评

相关论文