跳转至

Interpretable and Steerable Concept Bottleneck Sparse Autoencoders

会议: CVPR 2026
arXiv: 2512.10805
代码: GitHub
领域: 图像生成
关键词: 稀疏自编码器, 概念瓶颈, 可解释性, 可控性, 机制可解释性

一句话总结

揭示了SAE中大多数神经元(~81%)的可解释性或可控性不足的问题,提出CB-SAE框架——通过裁剪低效用SAE神经元并增加概念瓶颈模块,在LVLM和图像生成任务上分别提升可解释性+32.1%和可控性+14.5%。

研究背景与动机

稀疏自编码器(SAE)已成为机制可解释性的基础工具,用于将LLM/VLM中密集的多义激活分解为稀疏的单义潜变量。然而,要实现实际应用,SAE特征需要同时满足两个条件:可解释(人类可理解每个神经元的含义)和可控(干预神经元激活能可靠地改变模型输出)。

本文通过经验分析发现SAE的两个关键局限: 1. 大多数神经元不实用:在65,536个SAE神经元中,仅18.84%同时具有高可解释性和高可控性;36.26%两者都低 2. 用户所需概念覆盖不足:尽管SAE字典很大,仍有27-45%的ImageNet相关概念无法被SAE表示

而概念瓶颈模型(CBM)提供了明确的概念控制但无法发现新特征。本文核心idea:将SAE的无监督发现能力与CBM的可控性统一到一个框架中。

方法详解

整体框架

CB-SAE的四步pipeline: 1. 训练标准SAE → 2. 评估每个神经元的可解释性和可控性 → 3. 裁剪低效用神经元 → 4. 在冻结的SAE旁训练轻量概念瓶颈自编码器

关键设计

  1. 可解释性和可控性度量:

    • 功能:系统化评估SAE每个神经元的实用性
    • 核心思路:
      • 可解释性:使用CLIP-Dissect工具,将每个SAE神经元与预定义概念集中的最匹配概念关联,最高相似度作为可解释性分数
      • 可控性:通过LLaVA/UnCLIP转发测试——将目标神经元激活设为高值α=50、其余置零/白图像基线值,计算输出与CLIP-Dissect分配概念的句子嵌入余弦相似度
    • 设计动机:可解释性≠可控性。高可解释性神经元可能因果效应弱或纠缠度高而不可控;高可控性神经元可能编码了抽象/组合特征而不可解释。同时量化两者才能进行有效裁剪
  2. SAE神经元裁剪:

    • 功能:移除低效用SAE神经元,为概念瓶颈腾出空间
    • 核心思路:按可解释性 + 可控性总分从低到高排序,裁剪底部M个神经元(默认保留30K/65K)。直接删除编码器/解码器矩阵对应行/列:\(E'_{sae} = E_{sae}[[\omega]\setminus\mathcal{P},:]\), \(D'_{sae} = D_{sae}[:,[\omega]\setminus\mathcal{P}]\)
    • 设计动机:直接裁剪比加权/正则更简洁。概念集 \(\mathcal{C} = \mathcal{C}_{user} \setminus \mathcal{C}_{rsae}\) 仅包含SAE中缺失的概念,避免冗余
  3. 概念瓶颈自编码器(CB-AE)训练:

    • 功能:在保留的SAE旁增加用户指定概念的编解码能力
    • 核心思路:线性编码器 \(E_{cb} \in \mathbb{R}^{|\mathcal{C}| \times d}\) 和解码器 \(D_{cb} \in \mathbb{R}^{d \times |\mathcal{C}|}\) 与冻结的裁剪SAE并行运行。重建为 \(\hat{v}' = D'_{sae}z' + b + D_{cb}\sigma_{cb}(c)\),其中 \(\sigma_{cb}\) 使用top-k稀疏化(k=5)
    • 三个训练目标交替优化:
      • 重建损失 \(\mathcal{L}_r\)(更新 \(E_{cb}, D_{cb}\)):恢复裁剪导致的重建退化
      • 可解释性损失 \(\mathcal{L}_{int}\)(更新 \(E_{cb}\)):使用CLIP零样本分类器生成伪标签,cosine-cubed相似性损失对齐概念编码
      • 可控性损失 \(\mathcal{L}_{st}\)(更新 \(D_{cb}\)):循环重建——将重建的 \(\hat{v}'\) 重新通过 \(E_{cb}\) 得到 \(\hat{c}\),与伪标签做相同损失。确保解码器在概念被修改时能正确反映到重建特征中
    • 设计动机:编码器和解码器分别用不同目标更新——编码器负责"理解"(可解释性),解码器负责"控制"(可控性)。循环重建是任务无关的可控性目标,使同一CB-SAE可控制不同下游任务

损失函数 / 训练策略

三个目标交替优化,不使用损失权重超参数,而是通过分离的Adam优化器自适应缩放: - \(\mathcal{L}_r = \|v - \hat{v}'\|_2^2\):重建保真度 - \(\mathcal{L}_{int}\):cosine-cubed相似性损失,仅更新 \(E_{cb}\) - \(\mathcal{L}_{st}\):循环cosine-cubed相似性损失,仅更新 \(D_{cb}\)

实验关键数据

主实验 — LLaVA/UnCLIP可控生成

下游模型 方法 CLIP-Dissect↑ 单义性↑ 单元向量↑ 白图像↑
LLaVA-1.5-7B SAE 0.154 0.517 0.198 0.203
LLaVA-1.5-7B CB-SAE 0.244 0.556 0.261 0.250
LLaVA-MORE SAE 0.194 0.553 0.179 0.177
LLaVA-MORE CB-SAE 0.291 0.598 0.192 0.189
UnCLIP SAE 0.058 0.540 0.642 0.654
UnCLIP CB-SAE 0.092 0.594 0.659 0.664

平均可解释性提升+32.1%,可控性提升+14.5%

消融实验 — 神经元类型分析

神经元类型 CLIP-Dissect 单元向量 白图像
全部SAE神经元 0.154 0.198 0.203
被裁剪的SAE神经元 0.084 0.144 0.162
保留的SAE神经元 0.238 0.263 0.252
CB神经元 0.323 0.231 0.219
全部CB-SAE神经元 0.244 0.261 0.250

关键发现

  • SAE神经元的四象限分布:高解释+高可控仅18.84%,低解释+低可控36.26%,两极分化严重
  • SAE概念覆盖率随概念集增大急剧下降:Broden 96.3% → 20K英语词汇仅28.0%
  • CB神经元的可解释性显著高于SAE神经元(0.323 vs 0.154),验证了概念监督的必要性
  • 可控性损失 \(\mathcal{L}_{st}\) 贡献+2.9%可控性提升,且不影响可解释性
  • 保留SAE神经元数量越少分数越高,但过少会损害重建,30K是合理平衡点

亮点与洞察

  • 首次系统化地揭示了SAE可解释性与可控性之间的trade-off,并量化了概念覆盖不足的问题
  • 将SAE(无监督发现)和CBM(监督概念对齐)统一在同一框架中是很自然且有效的设计
  • 循环重建的可控性损失是巧妙的任务无关设计,使得同一CB-SAE可用于文本生成和图像生成两个不同下游任务
  • 概念集选择策略(仅添加SAE中缺失的概念)避免了冗余

局限与展望

  • 依赖CLIP-Dissect进行概念分配,CLIP-Dissect本身可能不准确
  • CB神经元的可控性仍低于保留的SAE神经元,需要更好的或针对特定任务的可控性损失
  • 仅在CLIP视觉编码器上验证,对其他视觉编码器(如DINOv2)的适用性需进一步探索
  • SAE的"特征分裂"现象与概念覆盖不足可能存在关联,未深入研究
  • 训练依赖CLIP零样本分类器的伪标签,其准确性上限受CLIP本身限制

相关工作与启发

  • vs 标准SAE: SAE是纯无监督的,不保证发现用户需要的概念,且大多数神经元低效用;CB-SAE通过裁剪+增强解决了这两个问题
  • vs CBM: CBM局限于预定义概念集,无法发现新特征;CB-SAE保留了SAE的发现能力
  • vs AlignSAE: 并发工作,AlignSAE用正交性损失分离监督/无监督概念,CB-SAE直接裁剪低效用神经元;AlignSAE针对文本LLM,CB-SAE针对视觉模型

评分

  • 新颖性: ⭐⭐⭐⭐ SAE+CBM的统一是自然且有效的,可解释性/可控性分析有独立价值
  • 实验充分度: ⭐⭐⭐⭐ 两个下游任务、详细消融和敏感性分析,但数据集有限(仅ImageNet)
  • 写作质量: ⭐⭐⭐⭐ 问题分析清晰,方法自然递进,图表直观
  • 价值: ⭐⭐⭐⭐ 对SAE实用化有重要推动,特别是对需要特定概念控制的应用场景

相关论文