Do Sparse Autoencoders Generalize? A Case Study of Answerability¶

会议: ICML 2025
arXiv: 2502.19964
代码: 无
领域: 模型压缩
关键词: Sparse Autoencoder, 可解释性, 特征泛化, 可回答性检测, 线性探针

一句话总结¶

本文系统评估了稀疏自编码器（SAE）提取的特征在"可回答性"（answerability）任务上的跨域泛化能力，发现 SAE 特征的域外迁移表现极不一致——在某些数据集上优于残差流线性探针，但在另一些上接近随机，揭示了当前 SAE 可解释性方法在捕获抽象概念方面的根本局限。

研究背景与动机¶

问题由来¶

语言模型的黑箱本质是其安全部署的根本障碍。稀疏自编码器（SAE）作为一种无监督可解释性方法，通过稀疏瓶颈重构神经激活来学习解耦的、可解释的特征，已在代码错误检测、偏见识别、情感分析等任务上展现出潜力。然而，一个核心问题被忽视了：SAE 是否能真正捕获跨领域通用的抽象概念？

为什么选择"可回答性"¶

高层语义概念：可回答性（模型判断"我能否回答这个问题"）是一种在不同任务和领域中普遍存在的抽象能力
异质性强：数学题的不可回答性 vs 阅读理解的不可回答性，其表征方式可能完全不同，适合测试泛化
实际意义：可回答性检测与幻觉控制、拒答能力直接相关

现有工作的不足¶

方向	现有工作局限	本文改进
SAE 训练优化	仅以重构质量衡量，与下游任务脱节	直接评估下游分类泛化性能
SAE 下游评估	聚焦简单句法特征，未测试泛化	跨5个异质数据集的OOD评估
多语言/句法泛化	仅考虑语言变体或句法变换	考虑语义层面不同域的可回答性概念
生物武器分类	主要是词汇级任务，泛化场景有限	更复杂的高层概念，更多样的分布偏移

方法详解¶

整体框架¶

本文的评估方法论可拆解为三个核心步骤：

Step 1: SAE 特征发现
使用 Gemma Scope 预训练 SAE（Lieberum et al., 2024）对 Gemma 2 指令微调模型的激活进行分解。选用最大的 131k 宽度 SAE，训练于第 20 层和第 31 层。

Step 2: 探针训练
在域内数据集 SQUAD 上，分别训练两种探针： - SAE 探针（1-sparse）：选择单个最具预测力的 SAE 特征，加 scale + bias - 残差流线性探针：直接在残差流激活上训练线性分类器，作为上界基准

Step 3: OOD 泛化评估
在4个域外数据集上评估域内训练的探针，测量泛化能力差异。

关键设计¶

SAE 特征选择流程¶

从 SQUAD 中采样 2000 个平衡样本（可回答/不可回答各1000）
收集最后一个 token 位置的 SAE 特征激活（131k 维）
使用5折交叉验证，逐特征评估每个 SAE 维度对可回答性的预测能力
选出 Top-K 个性能最优的特征
对每个 Top 特征训练最终探针（学习 scale 和 bias 参数），形成 1-sparse SAE probe

这种方法的核心理念是：如果 SAE 真正学到了"可回答性"的抽象表征，那么应该存在某个（或少数几个）SAE 特征维度能够跨域地编码这一概念。

数学形式¶

SAE 的编码-解码过程由以下公式定义：

\[\mathbf{f} = \text{ReLU}(W_e(\mathbf{x} - \mathbf{b}_d) + \mathbf{b}_e)\]

\[\hat{\mathbf{x}} = W_d \mathbf{f} + \mathbf{b}_d\]

其中 \(W_e \in \mathbb{R}^{d_{sae} \times d_{model}}\)，\(d_{sae} \gg d_{model}\)，通过超完备表示实现稀疏编码。

训练损失：

\[\mathcal{L} = \|\mathbf{x} - \hat{\mathbf{x}}\|_2^2 + \lambda \|\mathbf{f}\|_1\]

第一项为重构误差，第二项 L1 正则化确保稀疏性。本文使用的 Gemma Scope SAE 采用了更新的稀疏化机制（Lieberum et al., 2024; Gao et al., 2024），但基本思想一致。

残差流线性探针（基线）¶

直接在模型残差流激活 \(\mathbf{x}\) 上训练线性分类器 \(y = \sigma(\mathbf{w}^T \mathbf{x} + b)\)，并使用 bootstrap 分析确保稳健性。域内准确率达 85-90%，作为 SAE 探针的强基准。

评估数据集设计¶

构建了覆盖不同分布偏移类型的评估矩阵：

数据集	规模	类型	分布偏移来源
SQUAD (test)	1800	域内测试	无（同分布）
SQUAD (variations)	1800	近域	提示模板变化
IDK	484	OOD	不同问题风格
BoolQ	2000	OOD	是非题 vs 开放题
Equation	2000	OOD（合成）	数学方程，语义完全不同
Celebrity	600	OOD（合成）	名人事实，开放世界知识

其中 Equation 和 Celebrity 是本文自行构建的合成数据集： - Equation：给出简单方程（如 n=53, v=90），问一个是否可以用已定义变量计算的表达式，不依赖任何文本理解 - Celebrity：给出关于真实/虚构名人的短文，问其年龄等事实，测试模型的世界知识边界

损失函数 / 训练策略¶

SAE 预训练：使用 Gemma Scope 提供的预训练权重，本文不重新训练 SAE
探针训练：在 SQUAD 域内2000样本上训练，使用交叉熵损失
特征选择：基于5折交叉验证的 AUC/准确率排序
评估：所有 OOD 测试均使用域内训练好的探针，不做任何 fine-tuning，严格测试泛化

实验关键数据¶

主实验¶

测试数据集	SAE Top-1 特征	SAE Top-5 特征	残差流线性探针	观察
SQUAD (域内)	~75%	~80%	85-90%	线性探针大幅领先
Equation (合成)	高	高	中等	SAE 泛化良好
IDK	高	高	中等	SAE 泛化良好
Celebrity	高	高	中等	SAE 泛化良好
BoolQ	~随机	~随机	中等偏低	SAE 几乎完全失效

消融实验¶

配置	关键指标	说明
Layer 20 vs Layer 31	第31层略优	高层概念在深层网络中表征更清晰
131k 宽度 SAE	唯一可用最大宽度	更大字典可能有更好解耦
最后token位置	标准做法	最后token聚合了全序列信息
Bootstrap分析	残差流探针高方差	线性探针域外性能也不稳定
特征排名 Top-1/5/10	排名波动大	最优域内特征不一定最优OOD

关键发现¶

域内 vs 域外的反转现象：残差流线性探针在域内一致优于 SAE，但域外某些数据集上 SAE 特征反而更好。这说明 SAE 的稀疏解耦可能在特定场景提供正则化效果
SAE 泛化的极端不一致：同一组 Top SAE 特征在 Equation/IDK/Celebrity 上泛化良好，但在 BoolQ 上接近随机。这意味着不同数据集上的"可回答性"可能被模型编码为完全不同的特征
可回答性并非单一概念：BoolQ（是非题）与 SQUAD（抽取式问答）的可回答性在模型内部可能走完全不同的处理路径，SAE 的单特征无法统一覆盖
线性探针泛化也不可靠：即使残差流包含更丰富的信息，线性探针的 OOD 性能也具有高方差，说明泛化问题不仅是 SAE 的问题

亮点与洞察¶

实验设计精巧：通过构造合成数据集（Equation、Celebrity），将可回答性评估推到语义完全不同的域，暴露了 SAE 的真正泛化边界
反直觉发现：域内更强 ≠ 域外更强，SAE 的"松散"单特征探针反而可能比"紧密"全维度线性探针更具迁移性（在特定域上）
概念粒度问题：提出了一个重要的开放问题——"可回答性"在模型内部可能是多个细粒度机制的组合，而非单一可解耦特征
对 AI Safety 的警示：如果连可回答性这样相对简单的概念都无法稳定泛化，那么用 SAE 来检测欺骗、偏见等更复杂行为的可靠性存疑

局限与展望¶

仅评估 Gemma 2 一个模型：结论是否适用于 Llama、GPT 等其他架构未知
SAE 宽度固定：仅使用 131k 宽度，未探索更大/更小字典对泛化的影响
1-sparse 探针限制：仅用单个特征建探针，多特征组合是否能改善泛化未探索
缺乏特征可视化分析：未深入研究为何某些特征在特定域泛化良好而在其他域失败
可行的改进方向：
- 使用少量OOD样本做特征选择（few-shot feature selection）
- 训练多特征组合探针（k-sparse, k>1）
- 跨模型对比评估 SAE 泛化
- 分析 BoolQ 失效的具体机制原因

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统评估 SAE 在复杂高层概念上的跨域泛化，实验设计新颖
实验充分度: ⭐⭐⭐⭐ — 6个数据集覆盖多种分布偏移，但仅限单模型单SAE宽度
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，分析条理分明，图表直观
价值: ⭐⭐⭐⭐ — 对 SAE 可解释性社区的重要警示，推动更严格的泛化评估范式