Do Sparse Autoencoders Generalize? A Case Study of Answerability¶
会议: ICML 2025
arXiv: 2502.19964
代码: 无
领域: 模型压缩
关键词: Sparse Autoencoder, 可解释性, 特征泛化, 可回答性检测, 线性探针
一句话总结¶
本文系统评估了稀疏自编码器(SAE)提取的特征在"可回答性"(answerability)任务上的跨域泛化能力,发现 SAE 特征的域外迁移表现极不一致——在某些数据集上优于残差流线性探针,但在另一些上接近随机,揭示了当前 SAE 可解释性方法在捕获抽象概念方面的根本局限。
研究背景与动机¶
问题由来¶
语言模型的黑箱本质是其安全部署的根本障碍。稀疏自编码器(SAE)作为一种无监督可解释性方法,通过稀疏瓶颈重构神经激活来学习解耦的、可解释的特征,已在代码错误检测、偏见识别、情感分析等任务上展现出潜力。然而,一个核心问题被忽视了:SAE 是否能真正捕获跨领域通用的抽象概念?
为什么选择"可回答性"¶
- 高层语义概念:可回答性(模型判断"我能否回答这个问题")是一种在不同任务和领域中普遍存在的抽象能力
- 异质性强:数学题的不可回答性 vs 阅读理解的不可回答性,其表征方式可能完全不同,适合测试泛化
- 实际意义:可回答性检测与幻觉控制、拒答能力直接相关
现有工作的不足¶
| 方向 | 现有工作局限 | 本文改进 |
|---|---|---|
| SAE 训练优化 | 仅以重构质量衡量,与下游任务脱节 | 直接评估下游分类泛化性能 |
| SAE 下游评估 | 聚焦简单句法特征,未测试泛化 | 跨5个异质数据集的OOD评估 |
| 多语言/句法泛化 | 仅考虑语言变体或句法变换 | 考虑语义层面不同域的可回答性概念 |
| 生物武器分类 | 主要是词汇级任务,泛化场景有限 | 更复杂的高层概念,更多样的分布偏移 |
方法详解¶
整体框架¶
本文的评估方法论可拆解为三个核心步骤:
Step 1: SAE 特征发现
使用 Gemma Scope 预训练 SAE(Lieberum et al., 2024)对 Gemma 2 指令微调模型的激活进行分解。选用最大的 131k 宽度 SAE,训练于第 20 层和第 31 层。
Step 2: 探针训练
在域内数据集 SQUAD 上,分别训练两种探针:
- SAE 探针(1-sparse):选择单个最具预测力的 SAE 特征,加 scale + bias
- 残差流线性探针:直接在残差流激活上训练线性分类器,作为上界基准
Step 3: OOD 泛化评估
在4个域外数据集上评估域内训练的探针,测量泛化能力差异。
关键设计¶
SAE 特征选择流程¶
- 从 SQUAD 中采样 2000 个平衡样本(可回答/不可回答各1000)
- 收集最后一个 token 位置的 SAE 特征激活(131k 维)
- 使用5折交叉验证,逐特征评估每个 SAE 维度对可回答性的预测能力
- 选出 Top-K 个性能最优的特征
- 对每个 Top 特征训练最终探针(学习 scale 和 bias 参数),形成 1-sparse SAE probe
这种方法的核心理念是:如果 SAE 真正学到了"可回答性"的抽象表征,那么应该存在某个(或少数几个)SAE 特征维度能够跨域地编码这一概念。
数学形式¶
SAE 的编码-解码过程由以下公式定义:
其中 \(W_e \in \mathbb{R}^{d_{sae} \times d_{model}}\),\(d_{sae} \gg d_{model}\),通过超完备表示实现稀疏编码。
训练损失:
第一项为重构误差,第二项 L1 正则化确保稀疏性。本文使用的 Gemma Scope SAE 采用了更新的稀疏化机制(Lieberum et al., 2024; Gao et al., 2024),但基本思想一致。
残差流线性探针(基线)¶
直接在模型残差流激活 \(\mathbf{x}\) 上训练线性分类器 \(y = \sigma(\mathbf{w}^T \mathbf{x} + b)\),并使用 bootstrap 分析确保稳健性。域内准确率达 85-90%,作为 SAE 探针的强基准。
评估数据集设计¶
构建了覆盖不同分布偏移类型的评估矩阵:
| 数据集 | 规模 | 类型 | 分布偏移来源 |
|---|---|---|---|
| SQUAD (test) | 1800 | 域内测试 | 无(同分布) |
| SQUAD (variations) | 1800 | 近域 | 提示模板变化 |
| IDK | 484 | OOD | 不同问题风格 |
| BoolQ | 2000 | OOD | 是非题 vs 开放题 |
| Equation | 2000 | OOD(合成) | 数学方程,语义完全不同 |
| Celebrity | 600 | OOD(合成) | 名人事实,开放世界知识 |
其中 Equation 和 Celebrity 是本文自行构建的合成数据集: - Equation:给出简单方程(如 n=53, v=90),问一个是否可以用已定义变量计算的表达式,不依赖任何文本理解 - Celebrity:给出关于真实/虚构名人的短文,问其年龄等事实,测试模型的世界知识边界
损失函数 / 训练策略¶
- SAE 预训练:使用 Gemma Scope 提供的预训练权重,本文不重新训练 SAE
- 探针训练:在 SQUAD 域内2000样本上训练,使用交叉熵损失
- 特征选择:基于5折交叉验证的 AUC/准确率排序
- 评估:所有 OOD 测试均使用域内训练好的探针,不做任何 fine-tuning,严格测试泛化
实验关键数据¶
主实验¶
| 测试数据集 | SAE Top-1 特征 | SAE Top-5 特征 | 残差流线性探针 | 观察 |
|---|---|---|---|---|
| SQUAD (域内) | ~75% | ~80% | 85-90% | 线性探针大幅领先 |
| Equation (合成) | 高 | 高 | 中等 | SAE 泛化良好 |
| IDK | 高 | 高 | 中等 | SAE 泛化良好 |
| Celebrity | 高 | 高 | 中等 | SAE 泛化良好 |
| BoolQ | ~随机 | ~随机 | 中等偏低 | SAE 几乎完全失效 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Layer 20 vs Layer 31 | 第31层略优 | 高层概念在深层网络中表征更清晰 |
| 131k 宽度 SAE | 唯一可用最大宽度 | 更大字典可能有更好解耦 |
| 最后token位置 | 标准做法 | 最后token聚合了全序列信息 |
| Bootstrap分析 | 残差流探针高方差 | 线性探针域外性能也不稳定 |
| 特征排名 Top-1/5/10 | 排名波动大 | 最优域内特征不一定最优OOD |
关键发现¶
-
域内 vs 域外的反转现象:残差流线性探针在域内一致优于 SAE,但域外某些数据集上 SAE 特征反而更好。这说明 SAE 的稀疏解耦可能在特定场景提供正则化效果
-
SAE 泛化的极端不一致:同一组 Top SAE 特征在 Equation/IDK/Celebrity 上泛化良好,但在 BoolQ 上接近随机。这意味着不同数据集上的"可回答性"可能被模型编码为完全不同的特征
-
可回答性并非单一概念:BoolQ(是非题)与 SQUAD(抽取式问答)的可回答性在模型内部可能走完全不同的处理路径,SAE 的单特征无法统一覆盖
-
线性探针泛化也不可靠:即使残差流包含更丰富的信息,线性探针的 OOD 性能也具有高方差,说明泛化问题不仅是 SAE 的问题
亮点与洞察¶
- 实验设计精巧:通过构造合成数据集(Equation、Celebrity),将可回答性评估推到语义完全不同的域,暴露了 SAE 的真正泛化边界
- 反直觉发现:域内更强 ≠ 域外更强,SAE 的"松散"单特征探针反而可能比"紧密"全维度线性探针更具迁移性(在特定域上)
- 概念粒度问题:提出了一个重要的开放问题——"可回答性"在模型内部可能是多个细粒度机制的组合,而非单一可解耦特征
- 对 AI Safety 的警示:如果连可回答性这样相对简单的概念都无法稳定泛化,那么用 SAE 来检测欺骗、偏见等更复杂行为的可靠性存疑
局限与展望¶
- 仅评估 Gemma 2 一个模型:结论是否适用于 Llama、GPT 等其他架构未知
- SAE 宽度固定:仅使用 131k 宽度,未探索更大/更小字典对泛化的影响
- 1-sparse 探针限制:仅用单个特征建探针,多特征组合是否能改善泛化未探索
- 缺乏特征可视化分析:未深入研究为何某些特征在特定域泛化良好而在其他域失败
- 可行的改进方向:
- 使用少量OOD样本做特征选择(few-shot feature selection)
- 训练多特征组合探针(k-sparse, k>1)
- 跨模型对比评估 SAE 泛化
- 分析 BoolQ 失效的具体机制原因
相关工作与启发¶
- Cunningham et al. (2023) 和 Bricken et al. (2023):SAE 可解释性的奠基工作,本文在此基础上质疑其泛化能力
- Bricken et al. (2024):将 SAE 与线性探针在生物武器分类上对比,发现格式不匹配即可导致性能退化,本文将此扩展到更复杂任务
- Kantamneni et al. (2024; 2025):在小数据和损坏数据场景中 SAE 可能有优势,但总体上 SAE 不优于常规探针
- Barez et al. (2025):即使是先进的可解释性方法也可能在保障 AI 安全方面有根本局限
- 对 idea 生成的启发:SAE 特征泛化的不一致性暗示,可以设计自适应稀疏编码方法——在特征选择阶段引入跨域验证信号,或训练分层 SAE来分别捕获领域通用和领域特异的特征
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统评估 SAE 在复杂高层概念上的跨域泛化,实验设计新颖
- 实验充分度: ⭐⭐⭐⭐ — 6个数据集覆盖多种分布偏移,但仅限单模型单SAE宽度
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,分析条理分明,图表直观
- 价值: ⭐⭐⭐⭐ — 对 SAE 可解释性社区的重要警示,推动更严格的泛化评估范式
相关论文¶
- [NeurIPS 2025] A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders
- [NeurIPS 2025] Transformer Key-Value Memories Are Nearly as Interpretable as Sparse Autoencoders
- [ICLR 2026] Temporal Sparse Autoencoders: Leveraging the Sequential Nature of Language for Interpretability
- [ACL 2026] Understanding or Memorizing? A Case Study of German Definite Articles in Language Models
- [CVPR 2026] Beyond Semantics: Disentangling Information Scope in Sparse Autoencoders for CLIP