跳转至

Interpretable Generative Models through Post-hoc Concept Bottlenecks

会议: CVPR 2025
arXiv: 2503.19377
代码: https://github.com/Trustworthy-ML-Lab/posthoc-generative-cbm
领域: 扩散模型
关键词: 概念瓶颈模型, 可解释生成模型, 后置训练, 生成控制, 概念干预

一句话总结

本文提出两种低成本的后置方法——概念瓶颈自编码器(CB-AE)和概念控制器(CC)——将预训练生成模型转化为可解释且可操控的模型,无需从头训练或真实标注数据,在 CelebA/CelebA-HQ/CUB 上的可操控性(steerability)平均超过先前 CBGM 方法约25%,训练速度快4-15倍。

研究背景与动机

  1. 领域现状:深度生成模型(GAN, 扩散模型)在图像生成中取得巨大成功,但其生成过程是黑盒的。概念瓶颈模型(CBM)通过在中间层嵌入人类可理解的概念来实现固有可解释性,但目前主要用于分类任务。

  2. 现有痛点

    • 唯一将CBM扩展到生成任务的先前工作CBGM需要从头训练整个生成模型,计算代价巨大(如DDPM-256需240 V100-hours)
    • CBGM需要真实图像的概念标注,获取成本高
    • CBGM的可操控性(steerability)仅约25%,实用价值有限
  3. 核心矛盾:要让生成模型可解释,CBGM要求完全重新训练,这与利用强大预训练模型的趋势相悖;同时CBGM的概念标注依赖限制了可扩展性。

  4. 本文目标 如何以低成本、后置的方式为任意预训练生成模型注入概念级可解释性和可操控性。

  5. 切入角度:生成模型的中间latent空间已经编码了丰富的语义信息,只需训练一个轻量的概念瓶颈层来"解读"和"操控"这些信息。

  6. 核心 idea:冻结预训练生成器,仅训练一个概念瓶颈自编码器插入到latent空间中,用伪标签替代真实标注,实现低成本的后置可解释生成。

方法详解

核心思路:将预训练生成模型 \(g = g_2 \circ g_1\) 拆为两部分,在中间插入一个可训练的概念瓶颈自编码器 \(f = D \circ E\),使得新模型 \(g_2 \circ f \circ g_1\) 既保持生成质量,又提供概念级的可解释性和干预能力。

整体框架

输入:随机噪声 \(z\)。经过 \(g_1\) 得到中间latent \(w\),CB-AE编码器 \(E\)\(w\) 映射到概念向量 \(c = E(w)\),解码器 \(D\) 重建latent \(w' = D(c)\),最后 \(g_2(w')\) 生成图像。概念向量 \(c\) 包含预定义概念的logits和无监督概念嵌入。

两种方法: - CB-AE: 完整的概念瓶颈自编码器,提供固有可解释性 - CC: 仅训练编码器(概念控制器),配合优化式干预实现操控

关键设计

  1. 概念瓶颈自编码器 (CB-AE):

    • 功能:在保持生成质量的同时,提供概念预测和概念干预能力
    • 核心思路:CB-AE由编码器 \(E\)(latent→概念向量)和解码器 \(D\)(概念向量→重建latent)组成。概念向量 \(c\) 中每个二值概念用两个logits表示(如"smiling"用 \([c_i^+, c_i^-]\)),另包含40维无监督嵌入来捕获未预定义的概念。三个训练目标:(1) 重建损失 \(\mathcal{L}_{r_1}(w, w') + \mathcal{L}_{r_2}(x, x')\)(MSE)保证生成质量;(2) 概念对齐损失 \(\mathcal{L}_c(\hat{y}, c)\)(交叉熵)对齐概念预测与伪标签 \(\hat{y} = M(x)\);(3) 干预损失 \(\mathcal{L}_{i_1}, \mathcal{L}_{i_2}\) 确保修改概念后生成的图像确实改变
    • 设计动机:后置训练避免了从头训练的高昂成本;伪标签(来自CLIP零样本分类或少量标注模型)消除了对真实标注数据的需求
  2. 优化式概念干预 (Optimization-based Interventions):

    • 功能:通过梯度优化在latent空间中精确操控特定概念
    • 核心思路:受对抗攻击启发,使用I-RFGSM(迭代随机FGSM)在CB-AE编码器预测上做优化。给定原始latent \(w\) 和目标概念 \(c^*\),求解 \(w^* = w + \arg\max_{\delta \in \Delta}[-\mathcal{L}_c(E(w+\delta), c^*)]\),约束 \(\|\delta\|_\infty \leq \epsilon\)。直观理解:找一个小扰动 \(\delta\) 使得 \(w + \delta\) 的概念预测变为目标概念,同时图像变化最小
    • 设计动机:简单的logit交换干预虽然直观,但可操控性有限;优化式干预可提供更高的干预成功率和更好的图像质量
  3. 概念控制器 (CC):

    • 功能:比CB-AE更轻量的替代方案,仅用于概念预测和优化式干预
    • 核心思路:观察到优化式干预不使用解码器 \(D\),因此可以移除解码器,只训练一个概念预测器 \(\Omega\)。训练目标简化为仅有概念对齐损失 \(\min_\Omega[\mathcal{L}_c(\hat{y}, c)]\)。CC配合优化式干预使用,虽然不是固有可解释模型(因为不改变生成路径),但在操控性上通常表现更好
    • 设计动机:如果用户只需要操控而不需要固有可解释性,CC的训练时间可以比CB-AE更短(快8-30倍于CBGM)

损失函数 / 训练策略

  • CB-AE总损失\(\mathcal{L}_{r_1} + \mathcal{L}_{r_2} + \mathcal{L}_c + \mathcal{L}_{i_1} + \mathcal{L}_{i_2}\)
  • 干预训练:随机选一个概念交换logits生成 \(c_{intervened}\),重建图像后检查干预是否成功
  • CC训练:仅 \(\mathcal{L}_c\)
  • 50 epochs, batch 64, 4层MLP/Conv, 优化式干预用50步I-RFGSM (\(\epsilon=0.1\))

实验关键数据

主实验

可操控性对比 (8 concepts, CelebA GAN)

方法 Steerability (%)↑ FID↓ 训练时间
CBGM 25.60 9.10 50 V100-hrs
CB-AE 47.34 9.52 14 V100-hrs (3.5×)
CB-AE+opt-int 61.14
CC+opt-int 51.14 7.65 6 V100-hrs (8.3×)

跨模型和数据集的steerability (%)

方法 CelebA GAN CelebA-HQ DDPM CelebA-HQ StyGAN2 CUB GAN
CBGM 25.60 13.80 21.30
CB-AE+opt-int 61.14 38.09 61.66 46.03
CC+opt-int 51.14 41.45 67.95 48.91

消融实验

配置 概念准确率 Steerability 说明
CB-AE (logit swap) 86.56% 47.34% 基础干预
CB-AE + opt-int 86.56% 61.14% 优化式干预+13.8%
CC + opt-int 87.65% 51.14% 更轻量但稍逊
CLIP零样本伪标签 略低 仍显著超CBGM 零概念监督可行
TIP少样本伪标签(128张) 接近监督 接近监督 128张即可近似

关键发现

  • 优化式干预是关键:将CB-AE的steerability从47.34%提升到61.14%,相对提升29%
  • CC在StyleGAN2上最优:CelebA-HQ上达67.95%,因为GAN的干净latent空间更利于优化
  • 伪标签足够:使用CLIP零样本分类器即可获得有效的伪标签,无需任何标注数据
  • 40 concepts大规模场景:在CelebA全40个概念上,CB-AE+opt-int达58.3%,CBGM仅23.1%
  • 用户研究验证了自动化评估的可靠性,人类对CB-AE概念准确率的认同度与自动指标一致

亮点与洞察

  • 后置训练范式:冻结预训练生成器+训练轻量瓶颈层的思路极其实用,几乎可以即插即用到任何生成模型(GAN/DDPM/StyleGAN2),这个设计模式可以迁移到视频生成、3D生成等领域的可解释性研究
  • 对抗攻击→概念干预:将对抗攻击方法(I-RFGSM)创造性地用于概念操控,这个跨领域的类比非常巧妙且有效
  • CC的极简设计:移除解码器的洞察说明干预可以完全在latent空间通过优化完成,无需学习显式的"概念→latent"映射,大幅降低了训练成本

局限与展望

  • 概念间存在耦合(如"年轻"和"秃头"),修改一个概念可能影响其他概念,目前的正交性控制有限
  • 依赖伪标签质量,CLIP对某些概念的零样本识别能力有限(如CUB细粒度鸟类属性)
  • 仅验证了图像生成场景,视频生成和3D生成的扩展未探索
  • 优化式干预需要多步梯度计算(50步),实时应用可能受限
  • CB-AE的重建损失和干预损失之间可能存在优化冲突

相关工作与启发

  • vs CBGM: CBGM从头训练生成模型+需要标注数据,CB-AE是后置训练+伪标签。CB-AE在steerability上平均超越约25%,训练快4-15倍
  • vs LF-CBM/VLG-CBM: 这些是分类任务的后置CBM,CB-AE是首个将后置CBM思路延伸到生成任务的工作
  • vs GAN latent manipulation: InterfaceGAN等方法直接操纵GAN latent,但缺乏概念级的可解释性和结构化控制

评分

  • 新颖性: ⭐⭐⭐⭐ 后置概念瓶颈+优化式干预的组合新颖,方法设计优雅
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多种生成模型(GAN/DDPM/StyleGAN2)+多数据集+用户研究,非常全面
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,对比表格信息量大
  • 价值: ⭐⭐⭐⭐ 为生成模型的可解释性提供了实用的低成本方案,有实际应用潜力

相关论文