Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models¶

会议: NeurIPS 2025
arXiv: 2504.02821
代码: https://github.com/ExplainableML/sae-for-vlm
领域: 多模态VLM / 可解释性 / AI安全
关键词: sparse autoencoder, monosemanticity, CLIP, VLM interpretability, model steering

一句话总结¶

将Sparse Autoencoder (SAE)从LLM可解释性扩展到VLM领域，提出MonoSemanticity Score (MS)量化视觉神经元的单义性，发现SAE能将VLM中多义的神经元分解为单义特征，且可直接通过操控单个SAE神经元来steering LLaVA的输出（插入或抑制概念），无需修改LLM。

背景与动机¶

SAE已成为LLM可解释性的重要工具（如Anthropic的Claude解释工作），但在VLM领域的应用有限。VLM（如CLIP）的神经元天然是多义的（polysemantic）——一个神经元同时响应手机和尺子。缺少一个量化"单义性"的指标来评估SAE在视觉域的效果，也缺少将SAE用于VLM控制的实践。

核心问题¶

SAE能否有效分解VLM的视觉表示为单义特征？如何量化评估？分解后的特征能否用于无监督地steering多模态LLM的输出？

方法详解¶

整体框架¶

三部分：(1)定义MonoSemanticity Score (MS)评估SAE神经元单义性；(2)系统比较不同SAE架构/超参数对MS的影响；(3)将CLIP上训练的SAE迁移到LLaVA做概念级steering。

关键设计¶

MonoSemanticity Score (MS)：对每个SAE神经元k，在大规模图像集上计算激活加权的成对图像相似度：MS_k = Σ(r_nm^k · s_nm) / Σ(r_nm^k)，其中r是激活相关矩阵（两张图共同激活该神经元的程度），s是DINOv2嵌入的余弦相似度。分数越高→该神经元的高激活图像越相似→越单义。通过1000人次的大规模用户研究验证：MS差异>0.1时人类alignment rate从56.6%升至100%。
SAE架构对比：比较BatchTopK和Matryoshka BatchTopK SAE。关键发现：
Matryoshka SAE整体MS更高（但R²低2-3%）
宽latent（expansion factor↑）→最高MS神经元更单义
稀疏度↑（K↓）→整体MS↑（但K=1时R²仅31%，K=20的66.8%是好的平衡）
即使expansion factor=1（与原始层同宽），90%的SAE神经元比原始神经元更单义→稀疏重构本身就促进概念分离
Steering MLLM：在CLIP vision encoder的layer 22上训练SAE，插入LLaVA的vision encoder后。操控方式：将SAE neuron k的激活设为常数α（正值→插入概念，负值→抑制概念），其他neuron不变，然后用SAE decoder重构回token embedding。
概念插入：用白图+文本prompt，增大"铅笔neuron"的α→输出从love poem逐渐变成关于铅笔的诗
概念抑制：看有刀和草莓的图，减小"刀neuron"的α→输出描述中刀逐渐消失，草莓保留

评估¶

在CLIP ViT-L/14、SigLIP、AIMv2、WebSSL等4个vision encoder上验证MS，在LLaVA-1.5-7b上验证steering。

实验关键数据¶

设置	最高MS	平均MS
原始CLIP神经元 (无SAE)	0.01	0.01
BatchTopK SAE ε=4	0.80	0.20
Matryoshka SAE ε=4	0.87	0.23
Matryoshka SAE ε=64	1.00	~0.18

Steering量化对比 (SAE vs Difference-in-Means)： - 概念插入：SAE 42.4% vs DiffMean 35.8%（双标准满足率） - 概念抑制：SAE 52.5% vs DiffMean 33.3% - SAE在保持base prompt跟随方面远超DiffMean（85.8% vs 66.2%）

消融实验要点¶

稀疏性是关键：K=1→MS最高但R²太低；K=20是好平衡
expansion factor > 4后MS的相对分布开始下降（虽然绝对数量仍增加）
跨模型泛化：SAE从CLIP迁移到SigLIP/AIMv2/WebSSL都有效
Matryoshka层次与iNaturalist分类树的LCA深度相关→层次化概念发现

亮点 / 我学到了什么¶

MS指标简洁而有效——激活加权成对相似度，82.8%人类对齐率，可作为SAE评估的标准工具
Vision SAE → MLLM steering的迁移路径极其优雅——只改vision encoder的后处理，完全不碰LLM
概念抑制的potential：可用于过滤有害/不期望的视觉概念，在信息到达LLM之前就拦截
expansion factor=1时就有显著提升→稀疏字典学习本身（而非仅仅增加维度）是概念分离的关键

局限性 / 可改进方向¶

高MS neuron并不总是精确的steering工具（如golden retriever neuron可能触发任何狗相关输出）
部分SAE neurons是feature detector不产生steering效果
仅在CLIP系vision encoder上验证，未测试SigLIP-based LLaVA或InternViT
MS指标使用外部image encoder（DINOv2），引入了该encoder的bias
仅做image-level MS，未扩展到text domain

与相关工作的对比¶

vs Anthropic的SAE for Claude：本工作将SAE从LLM可解释性扩展到VLM视觉域，MS指标是视觉版的评估方案
vs CLIP-Dissect/CLIP Decomposition：这些工作用文本描述解释CLIP neuron，本工作用SAE解耦后再评估/steering
vs VL-SAE (2510.21323)：VL-SAE关注VLM内部alignment的统一概念集，本工作更关注量化评估和下游steering

与我的研究方向的关联¶

与Narrow Gate (2412.06646)互补——Narrow Gate揭示native VLM的[EOI] token bottleneck，SAE可以进一步分解[EOI]的表示看具体编码了哪些概念
对VLM安全有直接意义——可以在vision encoder层面做concept-level filtering
MS score可用于评估VLM token压缩方法是否损失了关键概念（压缩前后MS对比）

评分¶

新颖性: ⭐⭐⭐⭐ SAE用于VLM不是第一次，但MS指标+大规模用户研究+MLLM steering的组合是新的
实验充分度: ⭐⭐⭐⭐⭐ 4个vision encoder、多层多expansion factor、1000人次用户研究、定量steering评估
写作质量: ⭐⭐⭐⭐ 清晰系统，但部分表格信息偏密
对我的价值: ⭐⭐⭐⭐ VLM可解释性和安全对齐的实用工具，MS指标可直接复用