Interpretable and Steerable Concept Bottleneck Sparse Autoencoders¶
会议: CVPR 2026
arXiv: 2512.10805
代码: GitHub
领域: 图像生成
关键词: 稀疏自编码器, 概念瓶颈, 可解释性, 可控性, 机制可解释性
一句话总结¶
揭示了SAE中大多数神经元(~81%)的可解释性或可控性不足的问题,提出CB-SAE框架——通过裁剪低效用SAE神经元并增加概念瓶颈模块,在LVLM和图像生成任务上分别提升可解释性+32.1%和可控性+14.5%。
研究背景与动机¶
稀疏自编码器(SAE)已成为机制可解释性的基础工具,用于将LLM/VLM中密集的多义激活分解为稀疏的单义潜变量。然而,要实现实际应用,SAE特征需要同时满足两个条件:可解释(人类可理解每个神经元的含义)和可控(干预神经元激活能可靠地改变模型输出)。
本文通过经验分析发现SAE的两个关键局限: 1. 大多数神经元不实用:在65,536个SAE神经元中,仅18.84%同时具有高可解释性和高可控性;36.26%两者都低 2. 用户所需概念覆盖不足:尽管SAE字典很大,仍有27-45%的ImageNet相关概念无法被SAE表示
而概念瓶颈模型(CBM)提供了明确的概念控制但无法发现新特征。本文核心idea:将SAE的无监督发现能力与CBM的可控性统一到一个框架中。
方法详解¶
整体框架¶
CB-SAE的四步pipeline: 1. 训练标准SAE → 2. 评估每个神经元的可解释性和可控性 → 3. 裁剪低效用神经元 → 4. 在冻结的SAE旁训练轻量概念瓶颈自编码器
关键设计¶
-
可解释性和可控性度量:
- 功能:系统化评估SAE每个神经元的实用性
- 核心思路:
- 可解释性:使用CLIP-Dissect工具,将每个SAE神经元与预定义概念集中的最匹配概念关联,最高相似度作为可解释性分数
- 可控性:通过LLaVA/UnCLIP转发测试——将目标神经元激活设为高值α=50、其余置零/白图像基线值,计算输出与CLIP-Dissect分配概念的句子嵌入余弦相似度
- 设计动机:可解释性≠可控性。高可解释性神经元可能因果效应弱或纠缠度高而不可控;高可控性神经元可能编码了抽象/组合特征而不可解释。同时量化两者才能进行有效裁剪
-
SAE神经元裁剪:
- 功能:移除低效用SAE神经元,为概念瓶颈腾出空间
- 核心思路:按可解释性 + 可控性总分从低到高排序,裁剪底部M个神经元(默认保留30K/65K)。直接删除编码器/解码器矩阵对应行/列:\(E'_{sae} = E_{sae}[[\omega]\setminus\mathcal{P},:]\), \(D'_{sae} = D_{sae}[:,[\omega]\setminus\mathcal{P}]\)
- 设计动机:直接裁剪比加权/正则更简洁。概念集 \(\mathcal{C} = \mathcal{C}_{user} \setminus \mathcal{C}_{rsae}\) 仅包含SAE中缺失的概念,避免冗余
-
概念瓶颈自编码器(CB-AE)训练:
- 功能:在保留的SAE旁增加用户指定概念的编解码能力
- 核心思路:线性编码器 \(E_{cb} \in \mathbb{R}^{|\mathcal{C}| \times d}\) 和解码器 \(D_{cb} \in \mathbb{R}^{d \times |\mathcal{C}|}\) 与冻结的裁剪SAE并行运行。重建为 \(\hat{v}' = D'_{sae}z' + b + D_{cb}\sigma_{cb}(c)\),其中 \(\sigma_{cb}\) 使用top-k稀疏化(k=5)
- 三个训练目标交替优化:
- 重建损失 \(\mathcal{L}_r\)(更新 \(E_{cb}, D_{cb}\)):恢复裁剪导致的重建退化
- 可解释性损失 \(\mathcal{L}_{int}\)(更新 \(E_{cb}\)):使用CLIP零样本分类器生成伪标签,cosine-cubed相似性损失对齐概念编码
- 可控性损失 \(\mathcal{L}_{st}\)(更新 \(D_{cb}\)):循环重建——将重建的 \(\hat{v}'\) 重新通过 \(E_{cb}\) 得到 \(\hat{c}\),与伪标签做相同损失。确保解码器在概念被修改时能正确反映到重建特征中
- 设计动机:编码器和解码器分别用不同目标更新——编码器负责"理解"(可解释性),解码器负责"控制"(可控性)。循环重建是任务无关的可控性目标,使同一CB-SAE可控制不同下游任务
损失函数 / 训练策略¶
三个目标交替优化,不使用损失权重超参数,而是通过分离的Adam优化器自适应缩放: - \(\mathcal{L}_r = \|v - \hat{v}'\|_2^2\):重建保真度 - \(\mathcal{L}_{int}\):cosine-cubed相似性损失,仅更新 \(E_{cb}\) - \(\mathcal{L}_{st}\):循环cosine-cubed相似性损失,仅更新 \(D_{cb}\)
实验关键数据¶
主实验 — LLaVA/UnCLIP可控生成¶
| 下游模型 | 方法 | CLIP-Dissect↑ | 单义性↑ | 单元向量↑ | 白图像↑ |
|---|---|---|---|---|---|
| LLaVA-1.5-7B | SAE | 0.154 | 0.517 | 0.198 | 0.203 |
| LLaVA-1.5-7B | CB-SAE | 0.244 | 0.556 | 0.261 | 0.250 |
| LLaVA-MORE | SAE | 0.194 | 0.553 | 0.179 | 0.177 |
| LLaVA-MORE | CB-SAE | 0.291 | 0.598 | 0.192 | 0.189 |
| UnCLIP | SAE | 0.058 | 0.540 | 0.642 | 0.654 |
| UnCLIP | CB-SAE | 0.092 | 0.594 | 0.659 | 0.664 |
平均可解释性提升+32.1%,可控性提升+14.5%
消融实验 — 神经元类型分析¶
| 神经元类型 | CLIP-Dissect | 单元向量 | 白图像 |
|---|---|---|---|
| 全部SAE神经元 | 0.154 | 0.198 | 0.203 |
| 被裁剪的SAE神经元 | 0.084 | 0.144 | 0.162 |
| 保留的SAE神经元 | 0.238 | 0.263 | 0.252 |
| CB神经元 | 0.323 | 0.231 | 0.219 |
| 全部CB-SAE神经元 | 0.244 | 0.261 | 0.250 |
关键发现¶
- SAE神经元的四象限分布:高解释+高可控仅18.84%,低解释+低可控36.26%,两极分化严重
- SAE概念覆盖率随概念集增大急剧下降:Broden 96.3% → 20K英语词汇仅28.0%
- CB神经元的可解释性显著高于SAE神经元(0.323 vs 0.154),验证了概念监督的必要性
- 可控性损失 \(\mathcal{L}_{st}\) 贡献+2.9%可控性提升,且不影响可解释性
- 保留SAE神经元数量越少分数越高,但过少会损害重建,30K是合理平衡点
亮点与洞察¶
- 首次系统化地揭示了SAE可解释性与可控性之间的trade-off,并量化了概念覆盖不足的问题
- 将SAE(无监督发现)和CBM(监督概念对齐)统一在同一框架中是很自然且有效的设计
- 循环重建的可控性损失是巧妙的任务无关设计,使得同一CB-SAE可用于文本生成和图像生成两个不同下游任务
- 概念集选择策略(仅添加SAE中缺失的概念)避免了冗余
局限与展望¶
- 依赖CLIP-Dissect进行概念分配,CLIP-Dissect本身可能不准确
- CB神经元的可控性仍低于保留的SAE神经元,需要更好的或针对特定任务的可控性损失
- 仅在CLIP视觉编码器上验证,对其他视觉编码器(如DINOv2)的适用性需进一步探索
- SAE的"特征分裂"现象与概念覆盖不足可能存在关联,未深入研究
- 训练依赖CLIP零样本分类器的伪标签,其准确性上限受CLIP本身限制
相关工作与启发¶
- vs 标准SAE: SAE是纯无监督的,不保证发现用户需要的概念,且大多数神经元低效用;CB-SAE通过裁剪+增强解决了这两个问题
- vs CBM: CBM局限于预定义概念集,无法发现新特征;CB-SAE保留了SAE的发现能力
- vs AlignSAE: 并发工作,AlignSAE用正交性损失分离监督/无监督概念,CB-SAE直接裁剪低效用神经元;AlignSAE针对文本LLM,CB-SAE针对视觉模型
评分¶
- 新颖性: ⭐⭐⭐⭐ SAE+CBM的统一是自然且有效的,可解释性/可控性分析有独立价值
- 实验充分度: ⭐⭐⭐⭐ 两个下游任务、详细消融和敏感性分析,但数据集有限(仅ImageNet)
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰,方法自然递进,图表直观
- 价值: ⭐⭐⭐⭐ 对SAE实用化有重要推动,特别是对需要特定概念控制的应用场景
相关论文¶
- [NeurIPS 2025] Learning Interpretable Features in Audio Latent Spaces via Sparse Autoencoders
- [CVPR 2026] TriDF: Evaluating Perception, Detection, and Hallucination for Interpretable DeepFake Detection
- [CVPR 2026] Intrinsic Concept Extraction Based on Compositional Interpretability
- [CVPR 2026] Prototype-Guided Concept Erasure in Diffusion Models
- [CVPR 2026] PureCC: Pure Learning for Text-to-Image Concept Customization