Interpretable Generative Models through Post-hoc Concept Bottlenecks¶

会议: CVPR 2025
arXiv: 2503.19377
代码: https://github.com/Trustworthy-ML-Lab/posthoc-generative-cbm
领域: 扩散模型
关键词: 概念瓶颈模型, 可解释生成模型, 后置训练, 生成控制, 概念干预

一句话总结¶

本文提出两种低成本的后置方法——概念瓶颈自编码器(CB-AE)和概念控制器(CC)——将预训练生成模型转化为可解释且可操控的模型，无需从头训练或真实标注数据，在 CelebA/CelebA-HQ/CUB 上的可操控性(steerability)平均超过先前 CBGM 方法约25%，训练速度快4-15倍。

研究背景与动机¶

领域现状：深度生成模型(GAN, 扩散模型)在图像生成中取得巨大成功，但其生成过程是黑盒的。概念瓶颈模型(CBM)通过在中间层嵌入人类可理解的概念来实现固有可解释性，但目前主要用于分类任务。
现有痛点：
- 唯一将CBM扩展到生成任务的先前工作CBGM需要从头训练整个生成模型，计算代价巨大（如DDPM-256需240 V100-hours）
- CBGM需要真实图像的概念标注，获取成本高
- CBGM的可操控性(steerability)仅约25%，实用价值有限
核心矛盾：要让生成模型可解释，CBGM要求完全重新训练，这与利用强大预训练模型的趋势相悖；同时CBGM的概念标注依赖限制了可扩展性。
本文目标 如何以低成本、后置的方式为任意预训练生成模型注入概念级可解释性和可操控性。
切入角度：生成模型的中间latent空间已经编码了丰富的语义信息，只需训练一个轻量的概念瓶颈层来"解读"和"操控"这些信息。
核心 idea：冻结预训练生成器，仅训练一个概念瓶颈自编码器插入到latent空间中，用伪标签替代真实标注，实现低成本的后置可解释生成。

方法详解¶

核心思路：将预训练生成模型 \(g = g_2 \circ g_1\) 拆为两部分，在中间插入一个可训练的概念瓶颈自编码器 \(f = D \circ E\)，使得新模型 \(g_2 \circ f \circ g_1\) 既保持生成质量，又提供概念级的可解释性和干预能力。

整体框架¶

输入：随机噪声 \(z\)。经过 \(g_1\) 得到中间latent \(w\)，CB-AE编码器 \(E\) 将 \(w\) 映射到概念向量 \(c = E(w)\)，解码器 \(D\) 重建latent \(w' = D(c)\)，最后 \(g_2(w')\) 生成图像。概念向量 \(c\) 包含预定义概念的logits和无监督概念嵌入。

两种方法： - CB-AE: 完整的概念瓶颈自编码器，提供固有可解释性 - CC: 仅训练编码器(概念控制器)，配合优化式干预实现操控

关键设计¶

概念瓶颈自编码器 (CB-AE):
- 功能：在保持生成质量的同时，提供概念预测和概念干预能力
- 核心思路：CB-AE由编码器 \(E\)（latent→概念向量）和解码器 \(D\)（概念向量→重建latent）组成。概念向量 \(c\) 中每个二值概念用两个logits表示（如"smiling"用 \([c_i^+, c_i^-]\)），另包含40维无监督嵌入来捕获未预定义的概念。三个训练目标：(1) 重建损失 \(\mathcal{L}_{r_1}(w, w') + \mathcal{L}_{r_2}(x, x')\)（MSE）保证生成质量；(2) 概念对齐损失 \(\mathcal{L}_c(\hat{y}, c)\)（交叉熵）对齐概念预测与伪标签 \(\hat{y} = M(x)\)；(3) 干预损失 \(\mathcal{L}_{i_1}, \mathcal{L}_{i_2}\) 确保修改概念后生成的图像确实改变
- 设计动机：后置训练避免了从头训练的高昂成本；伪标签（来自CLIP零样本分类或少量标注模型）消除了对真实标注数据的需求
优化式概念干预 (Optimization-based Interventions):
- 功能：通过梯度优化在latent空间中精确操控特定概念
- 核心思路：受对抗攻击启发，使用I-RFGSM（迭代随机FGSM）在CB-AE编码器预测上做优化。给定原始latent \(w\) 和目标概念 \(c^*\)，求解 \(w^* = w + \arg\max_{\delta \in \Delta}[-\mathcal{L}_c(E(w+\delta), c^*)]\)，约束 \(\|\delta\|_\infty \leq \epsilon\)。直观理解：找一个小扰动 \(\delta\) 使得 \(w + \delta\) 的概念预测变为目标概念，同时图像变化最小
- 设计动机：简单的logit交换干预虽然直观，但可操控性有限；优化式干预可提供更高的干预成功率和更好的图像质量
概念控制器 (CC):
- 功能：比CB-AE更轻量的替代方案，仅用于概念预测和优化式干预
- 核心思路：观察到优化式干预不使用解码器 \(D\)，因此可以移除解码器，只训练一个概念预测器 \(\Omega\)。训练目标简化为仅有概念对齐损失 \(\min_\Omega[\mathcal{L}_c(\hat{y}, c)]\)。CC配合优化式干预使用，虽然不是固有可解释模型（因为不改变生成路径），但在操控性上通常表现更好
- 设计动机：如果用户只需要操控而不需要固有可解释性，CC的训练时间可以比CB-AE更短（快8-30倍于CBGM）

损失函数 / 训练策略¶

CB-AE总损失：\(\mathcal{L}_{r_1} + \mathcal{L}_{r_2} + \mathcal{L}_c + \mathcal{L}_{i_1} + \mathcal{L}_{i_2}\)
干预训练：随机选一个概念交换logits生成 \(c_{intervened}\)，重建图像后检查干预是否成功
CC训练：仅 \(\mathcal{L}_c\)
50 epochs, batch 64, 4层MLP/Conv, 优化式干预用50步I-RFGSM (\(\epsilon=0.1\))

实验关键数据¶

主实验¶

可操控性对比 (8 concepts, CelebA GAN)

方法	Steerability (%)↑	FID↓	训练时间
CBGM	25.60	9.10	50 V100-hrs
CB-AE	47.34	9.52	14 V100-hrs (3.5×)
CB-AE+opt-int	61.14	—	—
CC+opt-int	51.14	7.65	6 V100-hrs (8.3×)

跨模型和数据集的steerability (%)

方法	CelebA GAN	CelebA-HQ DDPM	CelebA-HQ StyGAN2	CUB GAN
CBGM	25.60	13.80	—	21.30
CB-AE+opt-int	61.14	38.09	61.66	46.03
CC+opt-int	51.14	41.45	67.95	48.91

消融实验¶

配置	概念准确率	Steerability	说明
CB-AE (logit swap)	86.56%	47.34%	基础干预
CB-AE + opt-int	86.56%	61.14%	优化式干预+13.8%
CC + opt-int	87.65%	51.14%	更轻量但稍逊
CLIP零样本伪标签	略低	仍显著超CBGM	零概念监督可行
TIP少样本伪标签(128张)	接近监督	接近监督	128张即可近似

关键发现¶

优化式干预是关键：将CB-AE的steerability从47.34%提升到61.14%，相对提升29%
CC在StyleGAN2上最优：CelebA-HQ上达67.95%，因为GAN的干净latent空间更利于优化
伪标签足够：使用CLIP零样本分类器即可获得有效的伪标签，无需任何标注数据
40 concepts大规模场景：在CelebA全40个概念上，CB-AE+opt-int达58.3%，CBGM仅23.1%
用户研究验证了自动化评估的可靠性，人类对CB-AE概念准确率的认同度与自动指标一致

亮点与洞察¶

后置训练范式：冻结预训练生成器+训练轻量瓶颈层的思路极其实用，几乎可以即插即用到任何生成模型（GAN/DDPM/StyleGAN2），这个设计模式可以迁移到视频生成、3D生成等领域的可解释性研究
对抗攻击→概念干预：将对抗攻击方法(I-RFGSM)创造性地用于概念操控，这个跨领域的类比非常巧妙且有效
CC的极简设计：移除解码器的洞察说明干预可以完全在latent空间通过优化完成，无需学习显式的"概念→latent"映射，大幅降低了训练成本

局限与展望¶

概念间存在耦合（如"年轻"和"秃头"），修改一个概念可能影响其他概念，目前的正交性控制有限
依赖伪标签质量，CLIP对某些概念的零样本识别能力有限（如CUB细粒度鸟类属性）
仅验证了图像生成场景，视频生成和3D生成的扩展未探索
优化式干预需要多步梯度计算（50步），实时应用可能受限
CB-AE的重建损失和干预损失之间可能存在优化冲突

评分¶

新颖性: ⭐⭐⭐⭐ 后置概念瓶颈+优化式干预的组合新颖，方法设计优雅
实验充分度: ⭐⭐⭐⭐ 覆盖多种生成模型(GAN/DDPM/StyleGAN2)+多数据集+用户研究，非常全面
写作质量: ⭐⭐⭐⭐ 方法描述清晰，对比表格信息量大
价值: ⭐⭐⭐⭐ 为生成模型的可解释性提供了实用的低成本方案，有实际应用潜力