跳转至

Dense SAE Latents Are Features, Not Bugs

会议: NeurIPS 2025
arXiv: 2506.15679
代码: 无
领域: 可解释性 / 稀疏自编码器 / 语言模型内部表示
关键词: SAE, dense latents, antipodal pairs, mechanistic interpretability, Gemma 2

一句话总结

本文系统研究了稀疏自编码器(SAE)中频繁激活的"dense latents",证明它们不是训练噪声,而是语言模型残差流中固有的密集子空间的反映,并提出了一套包含位置追踪、上下文绑定、零空间、字母、词性和PCA等六类dense latent的分类体系。

研究背景与动机

  1. 领域现状:稀疏自编码器(SAE)是当前机制可解释性研究的主流工具,通过对语言模型激活施加稀疏约束来提取可解释特征。理想情况下,SAE的所有latent都应稀疏激活、语义明确。
  2. 现有痛点:实际训练中,SAE会产生大量"dense latents"——激活频率在10%–50%的latent。这些latent难以通过激活模式直接解释,一直被视为训练瑕疵。部分工作甚至提出用频率正则化来抑制它们。
  3. 核心矛盾:dense latents到底是SAE训练过程的副产品(应被消除),还是模型残差流中确实存在固有密集信号的反映(应被理解)?
  4. 本文要解决什么? (a) dense latents的来源——训练伪影还是内在属性?(b) dense latents的几何结构是什么?(c) dense latents承担了哪些语义/功能角色?
  5. 切入角度:作者通过消融dense latent子空间后重新训练SAE来验证内在性假设,并在Gemma 2 2B全层SAE上做系统分类。
  6. 核心idea一句话:Dense latents反映了语言模型残差流中本质性的密集计算方向,它们在位置追踪、上下文绑定、熵调节等方面有明确的机制功能。

方法详解

整体框架

本文是一篇分析性工作,没有提出新模型,而是对已训练的SAE(Gemma Scope, TopK)中的dense latents进行系统的几何分析、功能分类和因果实验。输入是已训练SAE的权重和激活数据,输出是关于dense latents性质的一系列发现。

关键设计

  1. Dense Latent子空间消融实验:
  2. 做什么:验证dense latents是否是残差流的内在属性
  3. 核心思路:找到dense latents张成的子空间,将残差流激活在该子空间上的投影置零,然后在消融后的激活上重新训练SAE。对比消融同等数量的非dense latents子空间
  4. 关键结果:消融dense子空间后,重训SAE几乎不再产生dense latents;消融非dense子空间后,dense分布与原始几乎相同。在GPT-2、LLaMA 3.2上复现了相同结论

  5. 反极对(Antipodal Pairs)几何分析:

  6. 做什么:发现并量化dense latents的几何结构
  7. 核心思路:定义反极性分数 \(s_i = \max_{j \neq i} ( \text{sim}(\mathbf{W}^{(i)}_{\text{enc}}, \mathbf{W}^{(j)}_{\text{enc}}) \cdot \text{sim}(\mathbf{W}^{(i)}_{\text{dec}}, \mathbf{W}^{(j)}_{\text{dec}}) )\)
  8. 关键发现:dense latents(频率>0.3)的反极性分数几乎都>0.9,说明它们成对出现、共同重建残差流中的一个方向。引入AbsoluteTopK(允许负激活)后反极对消失

  9. 六类Dense Latent分类体系(Taxonomy):

  10. 位置latent:通过Spearman秩相关检测,分为句子/段落/上下文位置追踪三类,主要出现在前10层
  11. 上下文绑定latent:在中间层发现,激活依赖上下文语义而非固定概念。通过steering实验验证因果效应
  12. 零空间latent:与unembedding矩阵的最后k个左奇异向量对齐。99.6%的latent对齐分数<0.2,异常值中75%是dense,占全部dense的40%。部分通过RMSNorm调控输出熵
  13. 字母latent:在最后一层,选择性提升或抑制以特定字母开头的token的logit。Layer 25有114个,21个是dense
  14. 有意义词latent:通过POS标注的AUC-ROC检测,"有意义词"(名词/动词/形容词/副词)预测firing的AUC达~0.8
  15. PCA latent:一对反极对稳定重建第一主成分方向(余弦相似度>0.75)

  16. 层间动态分析:

  17. 早期层以位置/词性latent为主(结构信号),中间层以上下文绑定latent为主(语义信号),最后两层dense latent数量激增,以字母和零空间latent为主(输出信号)

实验关键数据

主实验:Dense Latent子空间消融

配置 Dense Latent数量(>0.1) 结论
原始SAE (d=16384) ~150 基线
消融dense子空间重训 ~10 Dense latents几乎消失
消融non-dense子空间重训 ~145 分布几乎不变
原始SAE (d=32768) ~300 字典大小翻倍,趋势相同

分类体系覆盖统计

类别 层范围 占dense比例 检测指标
位置(句/段/上下文) 0-10 早期层主导 Spearman rho>0.4
上下文绑定 10-18 中层主导 Flip rate > 0.75
零空间 20-25 ~40% (layer 25) alpha10 > 0.2
字母 25 ~20% (layer 25) Top-100 logit 90%同字母
有意义词 0-6 早期层 AUC > 0.75
PCA 全层 每层1对 cos sim > 0.75
未分类 全层 ~56%

关键发现

  • 消融dense子空间是唯一能消除dense latent的干预——证明内在性而非训练伪影
  • 反极性是SAE非负约束的自然推论:AbsoluteTopK彻底消除反极对
  • 上下文绑定latent的steering实验表明dense方向可能是模型追踪"当前活跃概念"的寄存器
  • 零空间中latent 14325的消融对输出熵影响最大,冻结RMSNorm后效应减弱
  • 跨层分析揭示了从结构到语义到输出的dense信号渐进转变

亮点与洞察

  • 反极性-密度正相关:SAE在非负约束下必须用两个相反方向的latent来重建一个双向信号,解释了dense latent总是成对出现的原因。AbsoluteTopK验证设计精巧
  • "寄存器"假说:上下文绑定latent可能充当残差流中追踪当前语义焦点的可复用寄存器——挑战了SAE latent必须全局单义的假设
  • 可迁移思路:零空间latent与RMSNorm的交互分析可迁移到其他归一化层研究;反极性分数可作为诊断SAE训练质量的通用指标

局限性 / 可改进方向

  • 仅解释了不到一半的dense latents,其余可能是多个稀疏特征的噪声聚合
  • 分析集中在Gemma 2 2B的JumpReLU SAE上,单一字典大小和稀疏约束
  • 反极对的因果作用尚未通过电路分析充分验证
  • 上下文绑定latent的"绑定"假说仍是相关性证据
  • 训练数据仅来自OpenWebText/C4,结论在代码/数学等特殊文本上的适用性未验证

相关工作与启发

  • vs Anthropic dense features解读:Anthropic对Claude的Transcoder中前10个dense latent做手工解释(6/10有解释),本文系统性覆盖全层、提出量化分类体系,深度和广度大幅扩展
  • vs removing-dense-latents:该工作主张用频率正则化消除dense latents,本文直接反驳:dense latents反映内在信号,不应被消除,而应被理解和利用
  • vs Gurnee et al.:他们在GPT-2中发现位置神经元,本文推广到SAE框架并发现段落追踪和句子追踪新类别
  • vs chughtai2024understanding:在GPT-2 Layer 0的SAE中发现dense位置特征但未分析密度,本文将位置特征推广到多层并系统量化
  • 上下文绑定latent与binding机制研究相关,可为后续因果电路分析提供切入点

评分

  • 新颖性: ⭐⭐⭐⭐ 系统分类体系和反极性发现是新贡献,但属于分析性工作而非方法创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融、steering、跨层分析、多模型验证,实验设计严谨全面
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,图表丰富,论证层层递进
  • 价值: ⭐⭐⭐⭐ 对SAE可解释性社区有重要推动,但未直接产生新模型或新方法