Interpretable and Steerable Concept Bottleneck Sparse Autoencoders¶

会议: CVPR 2026
arXiv: 2512.10805
代码: GitHub
领域: 图像生成
关键词: 稀疏自编码器, 概念瓶颈, 可解释性, 可控性, 机制可解释性

一句话总结¶

揭示了SAE中大多数神经元（~81%）的可解释性或可控性不足的问题，提出CB-SAE框架——通过裁剪低效用SAE神经元并增加概念瓶颈模块，在LVLM和图像生成任务上分别提升可解释性+32.1%和可控性+14.5%。

研究背景与动机¶

稀疏自编码器（SAE）已成为机制可解释性的基础工具，用于将LLM/VLM中密集的多义激活分解为稀疏的单义潜变量。然而，要实现实际应用，SAE特征需要同时满足两个条件：可解释（人类可理解每个神经元的含义）和可控（干预神经元激活能可靠地改变模型输出）。

本文通过经验分析发现SAE的两个关键局限： 1. 大多数神经元不实用：在65,536个SAE神经元中，仅18.84%同时具有高可解释性和高可控性；36.26%两者都低 2. 用户所需概念覆盖不足：尽管SAE字典很大，仍有27-45%的ImageNet相关概念无法被SAE表示

而概念瓶颈模型（CBM）提供了明确的概念控制但无法发现新特征。本文核心idea：将SAE的无监督发现能力与CBM的可控性统一到一个框架中。

方法详解¶

整体框架¶

CB-SAE的四步pipeline： 1. 训练标准SAE → 2. 评估每个神经元的可解释性和可控性 → 3. 裁剪低效用神经元 → 4. 在冻结的SAE旁训练轻量概念瓶颈自编码器

关键设计¶

可解释性和可控性度量:
- 功能：系统化评估SAE每个神经元的实用性
- 核心思路：
  - 可解释性：使用CLIP-Dissect工具，将每个SAE神经元与预定义概念集中的最匹配概念关联，最高相似度作为可解释性分数
  - 可控性：通过LLaVA/UnCLIP转发测试——将目标神经元激活设为高值α=50、其余置零/白图像基线值，计算输出与CLIP-Dissect分配概念的句子嵌入余弦相似度
- 设计动机：可解释性≠可控性。高可解释性神经元可能因果效应弱或纠缠度高而不可控；高可控性神经元可能编码了抽象/组合特征而不可解释。同时量化两者才能进行有效裁剪
SAE神经元裁剪:
- 功能：移除低效用SAE神经元，为概念瓶颈腾出空间
- 核心思路：按可解释性 + 可控性总分从低到高排序，裁剪底部M个神经元（默认保留30K/65K）。直接删除编码器/解码器矩阵对应行/列：\(E'_{sae} = E_{sae}[[\omega]\setminus\mathcal{P},:]\), \(D'_{sae} = D_{sae}[:,[\omega]\setminus\mathcal{P}]\)
- 设计动机：直接裁剪比加权/正则更简洁。概念集 \(\mathcal{C} = \mathcal{C}_{user} \setminus \mathcal{C}_{rsae}\) 仅包含SAE中缺失的概念，避免冗余
概念瓶颈自编码器（CB-AE）训练:
- 功能：在保留的SAE旁增加用户指定概念的编解码能力
- 核心思路：线性编码器 \(E_{cb} \in \mathbb{R}^{|\mathcal{C}| \times d}\) 和解码器 \(D_{cb} \in \mathbb{R}^{d \times |\mathcal{C}|}\) 与冻结的裁剪SAE并行运行。重建为 \(\hat{v}' = D'_{sae}z' + b + D_{cb}\sigma_{cb}(c)\)，其中 \(\sigma_{cb}\) 使用top-k稀疏化（k=5）
- 三个训练目标交替优化：
  - 重建损失 \(\mathcal{L}_r\)（更新 \(E_{cb}, D_{cb}\)）：恢复裁剪导致的重建退化
  - 可解释性损失 \(\mathcal{L}_{int}\)（更新 \(E_{cb}\)）：使用CLIP零样本分类器生成伪标签，cosine-cubed相似性损失对齐概念编码
  - 可控性损失 \(\mathcal{L}_{st}\)（更新 \(D_{cb}\)）：循环重建——将重建的 \(\hat{v}'\) 重新通过 \(E_{cb}\) 得到 \(\hat{c}\)，与伪标签做相同损失。确保解码器在概念被修改时能正确反映到重建特征中
- 设计动机：编码器和解码器分别用不同目标更新——编码器负责"理解"（可解释性），解码器负责"控制"（可控性）。循环重建是任务无关的可控性目标，使同一CB-SAE可控制不同下游任务

损失函数 / 训练策略¶

三个目标交替优化，不使用损失权重超参数，而是通过分离的Adam优化器自适应缩放： - \(\mathcal{L}_r = \|v - \hat{v}'\|_2^2\)：重建保真度 - \(\mathcal{L}_{int}\)：cosine-cubed相似性损失，仅更新 \(E_{cb}\) - \(\mathcal{L}_{st}\)：循环cosine-cubed相似性损失，仅更新 \(D_{cb}\)

实验关键数据¶

主实验 — LLaVA/UnCLIP可控生成¶

下游模型	方法	CLIP-Dissect↑	单义性↑	单元向量↑	白图像↑
LLaVA-1.5-7B	SAE	0.154	0.517	0.198	0.203
LLaVA-1.5-7B	CB-SAE	0.244	0.556	0.261	0.250
LLaVA-MORE	SAE	0.194	0.553	0.179	0.177
LLaVA-MORE	CB-SAE	0.291	0.598	0.192	0.189
UnCLIP	SAE	0.058	0.540	0.642	0.654
UnCLIP	CB-SAE	0.092	0.594	0.659	0.664

平均可解释性提升+32.1%，可控性提升+14.5%

消融实验 — 神经元类型分析¶

神经元类型	CLIP-Dissect	单元向量	白图像
全部SAE神经元	0.154	0.198	0.203
被裁剪的SAE神经元	0.084	0.144	0.162
保留的SAE神经元	0.238	0.263	0.252
CB神经元	0.323	0.231	0.219
全部CB-SAE神经元	0.244	0.261	0.250

关键发现¶

SAE神经元的四象限分布：高解释+高可控仅18.84%，低解释+低可控36.26%，两极分化严重
SAE概念覆盖率随概念集增大急剧下降：Broden 96.3% → 20K英语词汇仅28.0%
CB神经元的可解释性显著高于SAE神经元（0.323 vs 0.154），验证了概念监督的必要性
可控性损失 \(\mathcal{L}_{st}\) 贡献+2.9%可控性提升，且不影响可解释性
保留SAE神经元数量越少分数越高，但过少会损害重建，30K是合理平衡点

亮点与洞察¶

首次系统化地揭示了SAE可解释性与可控性之间的trade-off，并量化了概念覆盖不足的问题
将SAE（无监督发现）和CBM（监督概念对齐）统一在同一框架中是很自然且有效的设计
循环重建的可控性损失是巧妙的任务无关设计，使得同一CB-SAE可用于文本生成和图像生成两个不同下游任务
概念集选择策略（仅添加SAE中缺失的概念）避免了冗余

局限与展望¶

依赖CLIP-Dissect进行概念分配，CLIP-Dissect本身可能不准确
CB神经元的可控性仍低于保留的SAE神经元，需要更好的或针对特定任务的可控性损失
仅在CLIP视觉编码器上验证，对其他视觉编码器（如DINOv2）的适用性需进一步探索
SAE的"特征分裂"现象与概念覆盖不足可能存在关联，未深入研究
训练依赖CLIP零样本分类器的伪标签，其准确性上限受CLIP本身限制

评分¶

新颖性: ⭐⭐⭐⭐ SAE+CBM的统一是自然且有效的，可解释性/可控性分析有独立价值
实验充分度: ⭐⭐⭐⭐ 两个下游任务、详细消融和敏感性分析，但数据集有限（仅ImageNet）
写作质量: ⭐⭐⭐⭐ 问题分析清晰，方法自然递进，图表直观
价值: ⭐⭐⭐⭐ 对SAE实用化有重要推动，特别是对需要特定概念控制的应用场景