跳转至

Decomposing Representation Space into Interpretable Subspaces with Unsupervised Learning

会议: ICLR 2026
arXiv: 2508.01916
代码: GitHub
领域: 可解释 AI / 机械可解释性 / 表征学习
关键词: 子空间分解, 表征解释, 近邻距离最小化, 无监督分解, 知识定位, mechanistic interpretability

一句话总结

提出 NDM(Neighbor Distance Minimization),通过最小化子空间内的近邻距离来无监督地发现神经网络表征空间中的可解释非基对齐子空间,在 GPT-2 上平均 Gini=0.71(信息高度集中),在 Qwen2.5-1.5B 上发现了参数化知识与上下文知识路由的分离子空间。

研究背景与动机

  1. 领域现状:机械可解释性研究试图理解神经网络内部机制。基本分析单元包括:组件级(注意力头/MLP)、稀疏特征级(SAE)、子空间级(DAS)。每种都有局限:组件间传递的信息难理解,SAE 给出输入相关的电路,DAS 需要人工指定因果模型。
  2. 现有痛点
  3. SAE 的单维度视角:假设概念对齐到单个基向量(1D 特征),但"知识类型""语法角色"等概念可能分布在多维子空间中(Multi-Dimensional Superposition Hypothesis)
  4. DAS 需要监督:需要人工设计的抽象因果模型来搜索子空间,本质上是验证假设而非发现结构
  5. 没有无监督方法可以自动发现表征空间的"自然"分区
  6. 核心矛盾:如果互斥特征组(feature groups)被压缩到了正交子空间中(组内叠加/组间正交),如何在不知道真实特征的情况下找到这些子空间?
  7. 核心 idea:互斥特征组在子空间内的投影是"稀疏"的(数据点集中在几条线上)→ 近邻距离小。错误分区会将不同组的特征混在一起 → 数据点覆盖整个子空间 → 近邻距离大。因此,最小化子空间内近邻距离 = 找到正确分区

方法详解

整体框架

收集模型激活 \(\{\mathbf{h}_n\}_{n=1}^N\) → 学习正交矩阵 \(\mathbf{R}\) 旋转空间 → 按维度配置 \(c = [d_1, \ldots, d_S]\) 分区 → 最小化所有子空间内的平均近邻距离 → MI 导向的子空间合并 → 输出可解释子空间分区

关键设计

  1. 近邻距离最小化(NDM)
  2. 做什么:学习正交变换 \(\mathbf{R}\) 使子空间内近邻距离最小
  3. 公式:\(\min_{\mathbf{R}} \frac{1}{N} \sum_{s=1}^S \sum_{n=1}^N \text{dist}(\hat{\mathbf{h}}_n^{(s)}, \hat{\mathbf{h}}_{n^*}^{(s)})\),s.t. \(\mathbf{R}^\top \mathbf{R} = \mathbf{I}\)
  4. 其中 \(\hat{\mathbf{h}}_n = \mathbf{R} \mathbf{h}_n\)\(n^* = \arg\min_{m \neq n} \text{dist}(\hat{\mathbf{h}}_n^{(s)}, \hat{\mathbf{h}}_m^{(s)})\)
  5. 直觉:正确分区让组内互斥特征的投影集中在少数方向上(低近邻距离);错误分区混合了不同组的特征,投影散布在整个子空间
  6. 信息论解释:近邻距离反映熵;最小化子空间内熵(正交变换不改变总熵) = 最小化子空间间的 total correlation = 找到最独立的分区

  7. MI 导向的子空间合并

  8. 做什么:从细粒度分区开始,通过互信息(MI)将依赖性高的子空间合并
  9. 流程:初始化小等尺寸子空间 → 训练 \(\mathbf{R}\) → 定期计算子空间对间 MI → 如果 MI/dim > 阈值则合并 → 合并后继续训练 → 重复直到无需合并
  10. 设计动机:找到正确的子空间数目和维度也是关键——MI 合并策略让方法自适应地确定配置

  11. Gini 系数评估

  12. 做什么:用 Gini 系数量化干预效果在子空间间的集中度
  13. \(G = \sum |{\Delta_s}_1 - {\Delta_s}_2| / (2S \sum \Delta_s)\)\(G > 0.6\) 表示信息高度集中在一个子空间
  14. 对比基线:Identity(无旋转)、Random(随机旋转)、PCA
  15. 设计动机:基于已知电路(IOI、Greater-than)构建可量化的评估——如果真的找到了"变量子空间",那么干预效果应集中在一个子空间

训练策略

  • 正交约束通过 PyTorch 参数化保证
  • 距离度量:欧几里得距离(比余弦效果好)
  • 可扩展到 2B 参数模型

实验关键数据

GPT-2 Small 量化评估(5 个已知电路 test)

方法 Test 1 Test 2 Test 3 Test 4 Test 5 平均 Gini
Identity 0.33 0.32 0.40 0.31 0.32 0.21
Random 0.36 0.36 0.32 0.33 0.39 0.21
PCA 0.43 0.46 0.50 0.38 0.35
NDM 0.71 0.72 0.75 0.68 0.69 0.71

NDM 的平均 Gini 远超所有基线(>0.6 阈值表示信息高度集中),Identity/Random/PCA 均 <0.5。

Qwen2.5-1.5B 定性分析

发现 说明
参数知识子空间 编码模型从训练数据中记忆的知识
上下文知识子空间 编码从当前上下文中推断的知识
两者分离 在不同子空间中,支持"知识冲突"研究

消融/验证

配置 效果 说明
玩具模型(已知特征组) 完美恢复子空间 验证 NDM 原理
不同特征组数量 均成功分解 方法鲁棒
无 MI 合并 碎片化,不可解释 合并策略必要

关键发现

  • NDM 的信息集中度(Gini 0.71)远超所有基线——说明表征空间确实有"自然"子空间结构
  • GPT-2 的已知电路变量(如 IOI 电路中的 subject position)确实集中在单个子空间中——验证了方法的有效性
  • 参数知识 vs 上下文知识的分离子空间是重要的可解释性发现——直接支持"知识冲突"和"幻觉"研究
  • 方法可扩展到 2B 模型——实用性足够

亮点与洞察

  • 从单特征到子空间的范式转换:SAE 假设概念 = 单维度特征;NDM 允许概念 = 多维子空间。这更符合 Multi-Dimensional Superposition Hypothesis,是分析粒度的自然提升
  • 无监督发现 vs 有监督验证:DAS 需要先假设因果模型再搜索子空间(验证);NDM 直接从激活数据发现子空间(发现),然后可以做因果验证。发现→验证的流程比验证→发现更有科学发现潜力
  • "子空间电路"的愿景:如果子空间是可靠的"变量",可以通过分析权重确定注意力头从哪个子空间读、写到哪个子空间,构建输入无关的电路——这比 SAE 的输入相关电路更通用

局限性 / 可改进方向

  • 正交约束假设子空间严格正交——实际中子空间可能有小角度的偏差
  • 子空间合并的 MI 阈值需要手动设定
  • 更大模型(>10B)的可扩展性未验证
  • 仅在 Transformer 架构上测试,CNN/MLP 等架构未涉及
  • NDM 假设互斥特征组结构——如果特征间有更复杂的依赖关系(如层级结构),当前方法可能不够

相关工作与启发

  • vs SAE:SAE 找单维度稀疏特征,每个特征是一个"方向";NDM 找多维子空间,每个子空间是一组互斥特征的集合。进步在于捕获了多维概念
  • vs DAS (Geiger 2024):都学习正交变换,但 DAS 是有监督的(需要指定因果模型 + 反事实数据);NDM 是无监督的,直接从激活数据发现
  • vs Engels 2024 (Multi-Dim Superposition):NDM 的"特征组"概念与他们的"多维不可约特征"高度一致,可以看作该假说的计算实现

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 无监督子空间分解的方法新颖,近邻距离 ↔ 互斥特征组的理论联系优雅
  • 实验充分度: ⭐⭐⭐⭐ 玩具模型+GPT-2 量化+Qwen2.5 定性,覆盖验证-发现-可扩展性
  • 写作质量: ⭐⭐⭐⭐⭐ 从直觉到形式化到实验,逻辑链极其清晰
  • 价值: ⭐⭐⭐⭐⭐ 为机械可解释性提供了新的分析粒度和无监督工具,"子空间电路"的愿景有变革潜力