Projecting Assumptions: The Duality Between Sparse Autoencoders and Concept Geometry¶
会议: NeurIPS 2025
arXiv: 2503.01822
代码: GitHub
领域: 优化
关键词: 稀疏自编码器, 概念几何, 投影非线性, 可解释性, 对偶性
一句话总结¶
本文揭示了稀疏自编码器(SAE)架构与其能发现的概念结构之间存在根本性的对偶性——每种SAE隐式假设了特定的概念组织方式,当假设不匹配时会系统性地遗漏概念。据此提出了SpaDE,一种考虑非线性可分性和维度异质性的新SAE。
研究背景与动机¶
稀疏自编码器(SAE)已成为神经网络可解释性研究的核心工具,通过将模型表征分解为过完备的单语义(monosemantic)潜变量集合,实现对模型计算概念的枚举和干预。已有工作展示了SAE潜变量对应于有意义的概念(如特定建筑、行为、脚本等)的能力。
然而,一个根本性的问题被忽视了:SAE是否真正发现了模型依赖的所有概念,还是天然偏向于某些特定类型的概念? 不同的SAE架构(ReLU、TopK、JumpReLU)通常达到类似的保真度/稀疏性权衡,但它们是否发现了相同的概念?
如果答案是否定的,那么这可能解释了近期SAE研究中的负面结果:算法不稳定性和缺乏因果性。更重要的是,这意味着不存在通用的SAE——架构选择本身就隐含了对数据结构的假设。
作者的切入角度是将SAE形式化为一个双层优化问题(Claim 3.1),其中编码器非线性可以统一表示为某个约束集上的正交投影。这揭示了SAE编码器的感受野(receptive field)——即激活某个潜变量的输入空间区域——的几何形状直接决定了它能发现什么类型的概念。
方法详解¶
整体框架¶
将三种主流SAE(ReLU、TopK、JumpReLU)统一为"投影非线性"框架,分析各自的感受野形状和隐式数据假设,然后设计SpaDE来克服已识别的限制。
关键设计¶
-
投影非线性统一框架 (Definition 3.1 & Table 1):
- ReLU: \(g(\mathbf{v}) = \Pi_{\mathcal{S}}\{\mathbf{v}\}\),\(\mathcal{S} = \{\mathbf{y} \geq 0\}\)(正象限投影)
- TopK: \(g(\mathbf{v}) = \Pi_{\mathcal{S}}\{\mathbf{v}\}\),\(\mathcal{S} = \{\mathbf{y} \geq 0, \|\mathbf{y}\|_0 \leq k\}\)(k-稀疏约束投影)
- JumpReLU: ReLU(\(\mathbf{v} - \theta\)) + \(\theta \odot H(\mathbf{v} - \theta)\),结合了阈值化和正象限投影
关键洞察:不同SAE的本质区别在于投影集 \(\mathcal{S}\) 的选择。
-
双层优化形式化 (Claim 3.1): SAE求解如下双层问题: \(\arg\min_{\mathbf{D}, \mathbf{z} \geq 0} \sum_\mathbf{x} \|\mathbf{x} - \mathbf{D}\mathbf{z}\|^2 + \lambda\mathcal{R}(\mathbf{z})\) \(\text{s.t.} \quad \mathbf{z} = \mathbf{f}(\mathbf{x}) \in \arg\min_{\pi \in \mathcal{S}} \mathbf{F}(\pi, \mathbf{W}, \mathbf{x})\) 内层优化(由编码器架构决定)约束了外层字典学习的解空间。
-
感受野与隐式假设 (Definition 3.2 & Table 2):
- ReLU/JumpReLU: 感受野是半空间 → 假设概念线性可分
- TopK: 感受野是超锥体的并集 → 假设概念角度可分且维度均匀(因为k对所有输入固定)
-
两种关键数据性质:
- 非线性可分性: 不同大小/量级的概念可能无法被超平面分开(如"洋葱特征"、不同量级的线性特征)
- 维度异质性: 不同概念占据不同维度的子空间(如truth是1维的,一周七天是2维的,安全特征是高维的)
Table 3分析了各SAE的兼容性:ReLU/JumpReLU支持异质性但不支持非线性可分;TopK支持有限的非线性可分但不支持异质性。
-
SpaDE (Sparsemax Distance Encoder): 通过对偶性原则设计:
- 投影集选择概率单纯形 \(\mathcal{S} = \Delta^s = \{\mathbf{x}: \sum_i x_i = 1, \mathbf{x} \geq 0\}\),得到Sparsemax非线性——自适应稀疏(不同输入可激活不同数量的潜变量)
- 编码器使用欧氏距离而非线性变换:\(\mathbf{z} = \text{Sparsemax}(-\lambda d(\mathbf{x}, \mathbf{W}))\),其中 \(d(\mathbf{x}, \mathbf{W})_i = \|\mathbf{x} - \mathbf{W}_i\|^2\)
- \(\mathbf{W}_i\) 作为原型(prototype),基于距离的编码天然支持非线性可分
- 外层优化对应K-Deep Simplex (KDS),正则项 \(\sum_i z_i\|\mathbf{x} - \mathbf{W}_i\|^2\) 鼓励原型靠近数据
训练策略¶
SpaDE使用与其他SAE相同的重建损失训练,超参数 \(\lambda\) 控制稀疏程度(类似温度的倒数),\(\lambda \to 0\) 时退化为均匀分布。评估指标使用F1分数衡量潜变量的单语义性。
实验关键数据¶
非线性可分性实验 (Fig. 5)¶
| SAE | 线性可分概念F1 | 非线性可分概念F1 | 说明 |
|---|---|---|---|
| ReLU | 1.0 | ~0.5 | 感受野半空间无法隔离非线性概念 |
| JumpReLU | 1.0 | ~0.5 | 同上 |
| TopK | ~0.7 | ~0.7 | 两类概念都不完美 |
| SpaDE | 1.0 | 1.0 | 完美捕获两类概念 |
维度异质性实验 (Fig. 6)¶
| SAE | 自适应稀疏性 | 高维概念MSE | 说明 |
|---|---|---|---|
| ReLU | ✓ 部分 | 低 | 可自适应但有跨概念共现 |
| JumpReLU | ✓ 部分 | 低 | 同上 |
| TopK | ✗ | 高 | k固定,高维概念重建差 |
| SpaDE | ✓ 完全 | 低 | 可精确匹配内在维度 |
TopK只有在k超过概念固有维度时(如d=6需k≥8)才能使归一化MSE降至20%以下。
形式语言GPT实验 (Fig. 7)¶
| SAE | 跨词类潜变量共现 | 最佳F1分数 | 说明 |
|---|---|---|---|
| ReLU | 高 | < 1.0 | 不同词类激活共同潜变量 |
| JumpReLU | 高 | < 1.0 | 同上 |
| TopK | 中 | < 1.0 | 需不同k值适配不同词类 |
| SpaDE | 无 | 1.0 | 完美分离各词类 |
DINOv2视觉实验 (Fig. 8)¶
| SAE | 跨类潜变量共现 | Top-5 F1范围 | 说明 |
|---|---|---|---|
| ReLU | 广泛 | 变化大 | 不同类的可分性差异大 |
| JumpReLU | 广泛 | 变化大 | 同上 |
| TopK | 广泛 | 较低 | 角度分离不够 |
| SpaDE | 有限 | 最高 | 最单语义的潜变量 |
SpaDE在DINOv2上能识别出前景/背景、物体部件(手、面部、鱼鳍、教堂窗户、狗的眼/耳/鼻)等可解释概念。
关键发现¶
- 切换SAE架构可能暴露全新概念或遮蔽已有概念——不同SAE不可互换
- ReLU/JumpReLU的半空间感受野导致非线性可分概念的F1上限约为0.5
- TopK的固定稀疏度导致无法适配不同固有维度的概念
- SpaDE的自适应稀疏+距离编码同时解决了两个问题
- 光谱聚类(spectral clustering)分析表明SpaDE的稀疏编码能更好地保持概念边界
亮点与洞察¶
- "对偶性"视角非常优美:与其寻找通用SAE,不如理解数据中概念的组织方式,然后选择/设计匹配的SAE架构
- 将SAE统一为双层优化+投影非线性的框架具有理论美感,使得架构选择变成了投影集选择
- SpaDE的设计体现了"由数据性质驱动架构设计"的范式——非线性可分 → 距离编码,异质维度 → 自适应稀疏(Sparsemax)
- 实验设计从控制到自然层层递进(合成 → 形式语言 → 视觉模型),说服力强
局限与展望¶
- SpaDE并非所有场景最优——它隐式假设概念按欧氏距离分离,这未必总成立
- 过度特化风险:SpaDE可能将同一概念分裂为多个子簇(Fig. 5c中概念1出现两种颜色)
- 仅考虑了互斥概念,概念重叠的情形下分析可能不同
- 尚未在LLM规模上验证SpaDE的可扩展性
- 除非线性可分和维度异质性外,可能还有其他关键的数据性质需要考虑
相关工作与启发¶
- 直接回应了Bricken et al. (2023) "Towards Monosemanticity"的核心假设——SAE是否真的能发现所有概念
- 与Fel et al. (2025)的"Archetypal SAE"在SAE不稳定性问题上的观点一致——不稳定性可能源于架构假设与数据结构的不匹配
- 受神经科学中感受野概念启发,提供了分析SAE潜变量选择性的新视角
- 对可解释性研究的重要启示:使用SAE进行模型解释时,应意识到所发现的概念受限于SAE架构的隐式假设
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ SAE架构-概念几何对偶性是全新且深刻的洞察
- 实验充分度: ⭐⭐⭐⭐⭐ 从合成到形式语言到视觉,层层递进,验证系统
- 写作质量: ⭐⭐⭐⭐⭐ 框架表述清晰,图示(Fig. 1-2)直观,数学与直觉结合好
- 价值: ⭐⭐⭐⭐⭐ 对SAE可解释性研究方向有根本性的影响——不再盲目追求"更好的SAE",而是理解架构选择的含义
相关论文¶
- [NeurIPS 2025] Understanding Adam Requires Better Rotation Dependent Assumptions
- [NeurIPS 2025] Learning Sparse Approximate Inverse Preconditioners for Conjugate Gradient Solvers on GPUs
- [ICML 2025] Sparse Causal Discovery with Generative Intervention for Unsupervised Graph Domain Adaptation
- [ICLR 2026] Generalization Below the Edge of Stability: The Role of Data Geometry
- [ICML 2025] Optimization over Sparse Support-Preserving Sets: Two-Step Projection with Global Optimality Guarantees