跳转至

Projecting Assumptions: The Duality Between Sparse Autoencoders and Concept Geometry

会议: NeurIPS 2025
arXiv: 2503.01822
代码: GitHub
领域: 优化
关键词: 稀疏自编码器, 概念几何, 投影非线性, 可解释性, 对偶性

一句话总结

本文揭示了稀疏自编码器(SAE)架构与其能发现的概念结构之间存在根本性的对偶性——每种SAE隐式假设了特定的概念组织方式,当假设不匹配时会系统性地遗漏概念。据此提出了SpaDE,一种考虑非线性可分性和维度异质性的新SAE。

研究背景与动机

稀疏自编码器(SAE)已成为神经网络可解释性研究的核心工具,通过将模型表征分解为过完备的单语义(monosemantic)潜变量集合,实现对模型计算概念的枚举和干预。已有工作展示了SAE潜变量对应于有意义的概念(如特定建筑、行为、脚本等)的能力。

然而,一个根本性的问题被忽视了:SAE是否真正发现了模型依赖的所有概念,还是天然偏向于某些特定类型的概念? 不同的SAE架构(ReLU、TopK、JumpReLU)通常达到类似的保真度/稀疏性权衡,但它们是否发现了相同的概念?

如果答案是否定的,那么这可能解释了近期SAE研究中的负面结果:算法不稳定性和缺乏因果性。更重要的是,这意味着不存在通用的SAE——架构选择本身就隐含了对数据结构的假设。

作者的切入角度是将SAE形式化为一个双层优化问题(Claim 3.1),其中编码器非线性可以统一表示为某个约束集上的正交投影。这揭示了SAE编码器的感受野(receptive field)——即激活某个潜变量的输入空间区域——的几何形状直接决定了它能发现什么类型的概念。

方法详解

整体框架

将三种主流SAE(ReLU、TopK、JumpReLU)统一为"投影非线性"框架,分析各自的感受野形状和隐式数据假设,然后设计SpaDE来克服已识别的限制。

关键设计

  1. 投影非线性统一框架 (Definition 3.1 & Table 1):

    • ReLU: \(g(\mathbf{v}) = \Pi_{\mathcal{S}}\{\mathbf{v}\}\)\(\mathcal{S} = \{\mathbf{y} \geq 0\}\)(正象限投影)
    • TopK: \(g(\mathbf{v}) = \Pi_{\mathcal{S}}\{\mathbf{v}\}\)\(\mathcal{S} = \{\mathbf{y} \geq 0, \|\mathbf{y}\|_0 \leq k\}\)(k-稀疏约束投影)
    • JumpReLU: ReLU(\(\mathbf{v} - \theta\)) + \(\theta \odot H(\mathbf{v} - \theta)\),结合了阈值化和正象限投影

关键洞察:不同SAE的本质区别在于投影集 \(\mathcal{S}\) 的选择。

  1. 双层优化形式化 (Claim 3.1): SAE求解如下双层问题: \(\arg\min_{\mathbf{D}, \mathbf{z} \geq 0} \sum_\mathbf{x} \|\mathbf{x} - \mathbf{D}\mathbf{z}\|^2 + \lambda\mathcal{R}(\mathbf{z})\) \(\text{s.t.} \quad \mathbf{z} = \mathbf{f}(\mathbf{x}) \in \arg\min_{\pi \in \mathcal{S}} \mathbf{F}(\pi, \mathbf{W}, \mathbf{x})\) 内层优化(由编码器架构决定)约束了外层字典学习的解空间。

  2. 感受野与隐式假设 (Definition 3.2 & Table 2):

    • ReLU/JumpReLU: 感受野是半空间 → 假设概念线性可分
    • TopK: 感受野是超锥体的并集 → 假设概念角度可分维度均匀(因为k对所有输入固定)
  3. 两种关键数据性质:

    • 非线性可分性: 不同大小/量级的概念可能无法被超平面分开(如"洋葱特征"、不同量级的线性特征)
    • 维度异质性: 不同概念占据不同维度的子空间(如truth是1维的,一周七天是2维的,安全特征是高维的)

Table 3分析了各SAE的兼容性:ReLU/JumpReLU支持异质性但不支持非线性可分;TopK支持有限的非线性可分但不支持异质性。

  1. SpaDE (Sparsemax Distance Encoder): 通过对偶性原则设计:

    • 投影集选择概率单纯形 \(\mathcal{S} = \Delta^s = \{\mathbf{x}: \sum_i x_i = 1, \mathbf{x} \geq 0\}\),得到Sparsemax非线性——自适应稀疏(不同输入可激活不同数量的潜变量)
    • 编码器使用欧氏距离而非线性变换:\(\mathbf{z} = \text{Sparsemax}(-\lambda d(\mathbf{x}, \mathbf{W}))\),其中 \(d(\mathbf{x}, \mathbf{W})_i = \|\mathbf{x} - \mathbf{W}_i\|^2\)
    • \(\mathbf{W}_i\) 作为原型(prototype),基于距离的编码天然支持非线性可分
    • 外层优化对应K-Deep Simplex (KDS),正则项 \(\sum_i z_i\|\mathbf{x} - \mathbf{W}_i\|^2\) 鼓励原型靠近数据

训练策略

SpaDE使用与其他SAE相同的重建损失训练,超参数 \(\lambda\) 控制稀疏程度(类似温度的倒数),\(\lambda \to 0\) 时退化为均匀分布。评估指标使用F1分数衡量潜变量的单语义性。

实验关键数据

非线性可分性实验 (Fig. 5)

SAE 线性可分概念F1 非线性可分概念F1 说明
ReLU 1.0 ~0.5 感受野半空间无法隔离非线性概念
JumpReLU 1.0 ~0.5 同上
TopK ~0.7 ~0.7 两类概念都不完美
SpaDE 1.0 1.0 完美捕获两类概念

维度异质性实验 (Fig. 6)

SAE 自适应稀疏性 高维概念MSE 说明
ReLU ✓ 部分 可自适应但有跨概念共现
JumpReLU ✓ 部分 同上
TopK k固定,高维概念重建差
SpaDE ✓ 完全 可精确匹配内在维度

TopK只有在k超过概念固有维度时(如d=6需k≥8)才能使归一化MSE降至20%以下。

形式语言GPT实验 (Fig. 7)

SAE 跨词类潜变量共现 最佳F1分数 说明
ReLU < 1.0 不同词类激活共同潜变量
JumpReLU < 1.0 同上
TopK < 1.0 需不同k值适配不同词类
SpaDE 1.0 完美分离各词类

DINOv2视觉实验 (Fig. 8)

SAE 跨类潜变量共现 Top-5 F1范围 说明
ReLU 广泛 变化大 不同类的可分性差异大
JumpReLU 广泛 变化大 同上
TopK 广泛 较低 角度分离不够
SpaDE 有限 最高 最单语义的潜变量

SpaDE在DINOv2上能识别出前景/背景、物体部件(手、面部、鱼鳍、教堂窗户、狗的眼/耳/鼻)等可解释概念。

关键发现

  • 切换SAE架构可能暴露全新概念或遮蔽已有概念——不同SAE不可互换
  • ReLU/JumpReLU的半空间感受野导致非线性可分概念的F1上限约为0.5
  • TopK的固定稀疏度导致无法适配不同固有维度的概念
  • SpaDE的自适应稀疏+距离编码同时解决了两个问题
  • 光谱聚类(spectral clustering)分析表明SpaDE的稀疏编码能更好地保持概念边界

亮点与洞察

  • "对偶性"视角非常优美:与其寻找通用SAE,不如理解数据中概念的组织方式,然后选择/设计匹配的SAE架构
  • 将SAE统一为双层优化+投影非线性的框架具有理论美感,使得架构选择变成了投影集选择
  • SpaDE的设计体现了"由数据性质驱动架构设计"的范式——非线性可分 → 距离编码,异质维度 → 自适应稀疏(Sparsemax)
  • 实验设计从控制到自然层层递进(合成 → 形式语言 → 视觉模型),说服力强

局限与展望

  • SpaDE并非所有场景最优——它隐式假设概念按欧氏距离分离,这未必总成立
  • 过度特化风险:SpaDE可能将同一概念分裂为多个子簇(Fig. 5c中概念1出现两种颜色)
  • 仅考虑了互斥概念,概念重叠的情形下分析可能不同
  • 尚未在LLM规模上验证SpaDE的可扩展性
  • 除非线性可分和维度异质性外,可能还有其他关键的数据性质需要考虑

相关工作与启发

  • 直接回应了Bricken et al. (2023) "Towards Monosemanticity"的核心假设——SAE是否真的能发现所有概念
  • 与Fel et al. (2025)的"Archetypal SAE"在SAE不稳定性问题上的观点一致——不稳定性可能源于架构假设与数据结构的不匹配
  • 受神经科学中感受野概念启发,提供了分析SAE潜变量选择性的新视角
  • 对可解释性研究的重要启示:使用SAE进行模型解释时,应意识到所发现的概念受限于SAE架构的隐式假设

评分

  • 新颖性: ⭐⭐⭐⭐⭐ SAE架构-概念几何对偶性是全新且深刻的洞察
  • 实验充分度: ⭐⭐⭐⭐⭐ 从合成到形式语言到视觉,层层递进,验证系统
  • 写作质量: ⭐⭐⭐⭐⭐ 框架表述清晰,图示(Fig. 1-2)直观,数学与直觉结合好
  • 价值: ⭐⭐⭐⭐⭐ 对SAE可解释性研究方向有根本性的影响——不再盲目追求"更好的SAE",而是理解架构选择的含义

相关论文