跳转至

Improving Intervention Efficacy via Concept Realignment in Concept Bottleneck Models

会议: ECCV 2024
arXiv: 2405.01531
代码: GitHub
领域: LLM Alignment / Interpretable ML
关键词: Concept Bottleneck Models, Human Intervention, Concept Realignment, Interpretability, Human-AI Collaboration

一句话总结

本文发现 Concept Bottleneck Models (CBMs) 中人工干预效率低下的原因在于干预时各概念独立处理、忽视了概念间关联,提出了一个轻量级的 Concept Intervention Realignment Module (CIRM),在干预后自动重新对齐相关概念的预测值,将达到目标性能所需的干预次数最多减少 70%。

研究背景与动机

  1. 领域现状:深度学习模型在高风险场景(医疗、法律、伦理)中的部署受到黑盒决策过程的阻碍。Concept Bottleneck Models (CBMs) 通过引入人类可理解的概念层(如"白色翅膀"、"橙色鸟嘴"),将分类过程分为概念预测和基于概念的分类两步,使决策过程可解释。

  2. 现有痛点:CBMs 的一大核心优势是允许人类专家在测试时干预——修正错误的概念预测来纠正模型决策。但现有方法需要大量干预才能显著提升性能。例如在广泛使用的 CUB 鸟类数据集上,平均需要 13 次干预才能将准确率从 68% 提升到 90%,这在人工标注昂贵的场景中不切实际。

  3. 核心矛盾:每次概念干预都需要人类专家分析和修正,成本极高。但 CBMs 把每个概念当作独立入口——修正一个概念不会影响其他概念的预测值。然而现实中概念往往是相关的(如"白色翅膀"和"白色腹部"大概率共现),独立处理意味着人类反馈信息没有被充分利用。

  4. 本文要解决什么:如何用更少的人工干预达到同样或更好的分类性能,即提升干预的效率。

  5. 切入角度:利用概念之间的统计共现关系——当人类修正了一个概念后,应该自动推断出其他相关概念的更新值。就像"白色翅膀"被确认为真时,"白色腹部"的概率也应该相应增加。

  6. 核心 idea:训练一个轻量级的概念重对齐网络 \(u\),在每次干预后根据概念间的关联关系自动更新所有未被干预概念的预测值。

方法详解

整体框架

Pipeline: 输入图像 \(x\) → 概念编码器 \(g(x)\) 预测概念 \(\hat{c}\) → 人类干预修正部分概念 → CIRM 重对齐模块 \(u(\tilde{c}_t)\) 自动更新其他概念 → 分类头 \(f\) 输出最终预测。

CIRM 无缝插入在干预步骤与分类头之间,不需要修改原始 CBM/CEM 的结构。

关键设计

  1. Concept Intervention Realignment Module (CIRM):
  2. 做什么:在人类干预了一组概念 \(\mathcal{S}_t\) 后,自动调整剩余未干预概念 \(\setminus\mathcal{S}_t\) 的预测值
  3. 核心思路:训练一个重对齐网络 \(v\)(MLP 或 LSTM),输入为干预后的概念向量 \(\tilde{c}_t = \{c_{\mathcal{S}_t}, \hat{c}_{\setminus\mathcal{S}_t}\}\),输出为重对齐后的概念: $\(u(\tilde{c}_t, \mathcal{S}_t)^{(i)} = \begin{cases} v(\tilde{c}_t)^{(i)} & \text{if } i \notin \mathcal{S}_t \\ \tilde{c}_t^{(i)} & \text{if } i \in \mathcal{S}_t \end{cases}\)$ 关键约束:已被人类修正的概念值不被覆盖(保真性),只更新未干预概念。
  4. 设计动机:概念在现实中不是独立出现的,存在共现关系。干预一个概念自然提供了关于其他概念的上下文信息(如确认"有冠"暗示可能是特定鸟种),这些信息应该被传播利用。

  5. 训练策略(Post-hoc vs Joint):

  6. 做什么:提供两种部署方式——后置训练(冻结已训练好的 CBM,只训练 \(u\))和联合训练(与 IntCEM 一起端到端训练)
  7. 核心思路(Post-hoc):使用交叉熵损失训练重对齐网络: $\(\mathcal{L}(u) = \frac{1}{T}\sum_{t=0}^{T} \text{CE}(u(\tilde{c}_t), c)\)$ 在训练时模拟完整的干预过程:从基础模型预测出发,按 UCP 策略逐步干预 \(T\) 个概念,在每步训练重对齐网络。
  8. 核心思路(Joint with IntCEM):修改 IntCEM 的训练目标引入重对齐损失: $\(\mathcal{L}_{\text{conc-ReA}} = \frac{1}{2}\left(\mathcal{L}_{\text{conc}}(\hat{c},c) + \frac{\text{CE}(\kappa_0, c) + \gamma^T \text{CE}(\kappa_T, c)}{1 + \gamma^T}\right)\)$
  9. 设计动机:后置训练无需修改原始模型(即插即用),联合训练则可以让概念编码器也感知到重对齐的存在。

  10. 干预策略的对齐 (Policy Alignment):

  11. 做什么:确保训练和部署时使用一致的概念选择策略
  12. 核心思路:默认使用 UCP(Uncertainty-based Concept Selection Policy),选择预测概率最接近 0.5 的概念优先干预(即最不确定的概念)。重对齐后的概念值 \(\kappa_t\) 被回传给策略 \(\pi(\kappa_t)\) 来决定下一个干预目标。
  13. 设计动机:重对齐会改变未干预概念的不确定性排序,因此后续选择的概念应基于更新后的值。实验验证了训练策略与部署策略的一致性至关重要。

损失函数 / 训练策略

  • Post-hoc 模式:冻结 CBM/CEM 的 \(g\)\(f\),仅训练 MLP 重对齐网络 \(v\),损失为概念预测 CE loss,在所有 \(T\) 个干预步骤上求平均
  • Joint 模式:基于 IntCEM 的训练框架,在 \(\mathcal{L}_{\text{IntCEM}}\) 基础上加入重对齐概念损失 \(\mathcal{L}_{\text{conc-ReA}}\)
  • 超参搜索:使用 Optuna 50 trials,搜索隐藏层数 \(\in\{1,2,3\}\)、神经元数 \(\in\{k, 2k, k/2\}\)、学习率 \(\in[10^{-5}, 10^{-1}]\)
  • 训练时 \(T=k\):模拟干预所有概念的完整轨迹

实验关键数据

主实验

Concept Loss AUC(越低越好)和 Accuracy AUC(越高越好)

基础模型 重对齐 Concept Loss AUC (CUB) Concept Loss AUC (AwA2) Acc AUC (CUB) Acc AUC (AwA2)
Sequential CBM 6.71 4.26 2460.8 8364.0
Sequential CBM 3.15 1.13 2510.9 8397.6
Independent CBM 6.71 4.26 2653.4 8403.4
Independent CBM 3.15 1.13 2678.3 8437.0
CEM 5.99 4.90 2521.4 8429.3
CEM 3.20 1.69 2558.4 8433.9

关键数据点(来自曲线图): - CUB: 概念损失从 0.6 降到 0.06 需要 11 次干预(有重对齐) vs 23 次(无重对齐),减少 52% - AwA2: 10 倍概念损失降低需要 16 次干预 vs 60+ 次,减少 70%+ - AwA2: 达到 98% 准确率需要 12 次干预 vs 19 次

消融实验

重对齐网络架构比较(CUB,Sequential CBM + UCP)

架构 输入类型 Concept Loss AUC 说明
MLP 基础模型预测 \(\tilde{c}_t\) 最佳 默认配置,简单有效
MLP 上一步重对齐输出 \(\kappa_{t-1}\) 次优 复合精修反而不如原始输入
LSTM 基础模型预测 略差于 MLP 干预历史信息帮助有限
LSTM 上一步重对齐输出 最差 复合历史+复合精修效果不佳

训练-部署策略对齐的重要性(CUB)

训练策略 部署策略 效果
UCP UCP 最佳
UCP Random 有提升但次优
Random Random 在 random 部署下最佳

关键发现

  • 所有概念模型都受益:CIRM 在 Sequential/Independent/Joint CBM 和 CEM 上全部有效,且均是"概念损失减半、准确率提升"的效果
  • 简单 MLP 最好:令人惊讶的是,无需考虑干预历史(LSTM)、也不必复合精修(输入 \(\kappa_{t-1}\)),直接用 MLP 处理当前干预后的概念向量效果最佳
  • 策略对齐很关键:训练时用 UCP、部署时用 random,效果不如训练和部署都用 random——重对齐网络会适应训练时的策略分布
  • 概念级改善 > 准确率改善:概念预测的提升非常显著(AUC 减半),但准确率提升幅度相对较小,因为准确率曲线在高干预区域饱和
  • CelebA 提升最小:只有 8 个(噪声大的)概念,概念信息本身不足以支撑分类,成为瓶颈
  • Joint IntCEM + CIRM 也有效:即使在已经做了 intervention-aware 训练的 IntCEM 上,概念重对齐依然能带来显著提升

亮点与洞察

  • "独立干预"这个 failure mode 被精准识别:之前的 CBM 研究都聚焦于更好的概念表示或更好的干预策略,没有人注意到"干预后不传播"这个根本问题。这个洞察非常锐利
  • 极简设计、极强效果:一个后置训练的小 MLP 就能将干预效率提升 50-70%,不需要修改原始模型架构,deployment cost 几乎为零
  • Transferable trick — 关联传播:任何涉及多维度标注/反馈的系统都可以借鉴这个思路——修正一个维度时自动推断其他维度。例如多标签分类的标注纠正、多属性编辑等
  • Post-hoc 兼容性:作为即插即用模块,可以直接套在任何现有 CBM/CEM 上,这大幅降低了落地门槛
  • 概念关系的隐式学习:CIRM 不需要显式定义概念关系图,MLP 通过训练数据中的共现统计隐式捕获

局限性 / 可改进方向

  • 需要概念标注数据:训练 CIRM 仍然需要概念的 ground truth 标注,这是 CBM 体系共有的限制
  • CelebA 上提升有限:当概念本身噪声大且数量少时,重对齐的提升空间有限
  • MLP 容量可能不够:对于概念关系更复杂的场景(如条件依赖、层级关系),简单 MLP 可能不足
  • 仅考虑 scalar 概念:对于 CEM 的 embedding 概念,重对齐是在概率层面做的,没有直接在 embedding 空间做
  • 干预顺序的影响未充分探索:仅比较了 UCP vs random,未尝试更复杂的自适应策略
  • 缺少真实人类实验:所有实验都是用 ground truth 概念模拟干预,没有真正的人机交互测试

相关工作与启发

  • vs IntCEM (Zarlenga et al. 2023):IntCEM 在训练时引入干预来提升模型对干预的接受度,但仍然独立处理概念;CIRM 正交于 IntCEM,两者组合效果更好
  • vs Energy-based CBMs (Xu et al. 2023):并行工作,也尝试在干预后更新概念预测,但用能量模型实现;CIRM 更简单、性能更好、集成更方便
  • vs UCP (Lewis & Catlett 1994):UCP 是概念选择策略,决定"干预哪个";CIRM 在干预后传播信息,决定"如何更新其他概念"。两者互补
  • 启发:在任何带有人工反馈的 AI 系统中,都应该考虑"反馈传播"而非"孤立应用"——这对 RLHF、active learning 等领域也有参考价值

评分

  • 新颖性: ⭐⭐⭐⭐ 洞察精准(概念独立处理的问题),方案简洁,但 idea 本身不算复杂
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、五种基础模型、多种消融、策略对齐分析、定性分析,非常全面
  • 写作质量: ⭐⭐⭐⭐⭐ 动机阐述清晰,问题—方案—实验逻辑链完整,图表丰富
  • 价值: ⭐⭐⭐⭐ 对 CBM 领域有实际推动作用,降低了人机协作的成本,但受限于 CBM 的整体适用范围