Enhancing Automated Interpretability with Output-Centric Feature Descriptions¶
会议: ACL 2025
arXiv: 2501.08319
领域: LLM NLP
关键词: 自动可解释性, 特征描述, 输出中心方法, 稀疏自编码器, 模型转向
一句话总结¶
提出两种以输出为中心的特征描述方法(VocabProj 和 TokenChange),弥补现有基于输入激活的自动可解释性流程只能捕获"什么激活了特征"而忽略"特征如何影响输出"的缺陷,并证明输入+输出方法的集成能生成最忠实的特征描述。
研究背景与动机¶
自动可解释性流程旨在为 LLM 中的特征(如 SAE 特征或神经元)生成自然语言描述。现有方法(以 MaxAct 为代表)通过寻找最大激活输入来推断特征含义,但存在三个根本性问题:
- 计算开销大:需要在大规模语料上计算激活值来寻找最大激活输入
- 理论缺陷:特征的因果角色由输入和输出两方面共同决定,仅依赖输入是片面的
- 应用导向问题:特征描述的常见用途是模型"转向"(steering),这本质是输出导向的任务,需要输出中心的描述
例如一个特征可能被竞争性商业语句激活(输入侧),但其对输出的影响是促进"战争"相关概念(如贸易战、竞价战争)。仅看输入完全无法捕捉这种输出效应。
方法详解¶
整体框架¶
作者提出双面评估框架和两种高效的输出中心方法:
- 输入侧评估:描述是否捕捉了什么激活了特征
- 输出侧评估:描述是否捕捉了特征激活时对模型输出的因果影响
关键设计¶
VocabProj(词表投影): - 计算特征向量 v_f,经过 LayerNorm 后与 unembedding 矩阵 W_U 相乘投影到词表空间 - 取得分最高/最低的 token(最被促进/抑制的 token),送入解释器模型生成描述 - 计算代价极低:仅需一次矩阵乘法
TokenChange(Token 变化): - 将 k 个随机 prompt 通过模型,收集 logit 值 - 对特征执行 clamping(固定激活值为高值 m),收集新 logit 值 - 计算每个 token 的平均 logit 变化量,取变化最大的 token 送入解释器 - 这是因果干预性的输出方法
集成策略: - Ensemble Raw:将多个方法的原始数据拼接后送入解释器 - Ensemble Concat:直接拼接各方法生成的描述
实验关键数据¶
主实验¶
在 Gemma-2 2B 残差流 SAE 特征上的评估(%,越高越好):
| 方法 | Input 评估 | Output 评估 |
|---|---|---|
| MaxAct | 56.6 | 49.2 |
| VocabProj | 50.1 | 56.5 |
| TokenChange | 44.7 | 54.9 |
| EnsembleR (MA+TC) | 67.0 | 61.9 |
| EnsembleR (All) | 66.6 | 64.9 |
| EnsembleC (All) | 57.7 | 66.9 |
在 Llama-3.1 8B Instruct MLP 神经元上的评估:
| 方法 | Input 评估 | Output 评估 |
|---|---|---|
| MaxAct | 85.6 | 36.9 |
| MaxAct++ | 89.8 | 39.0 |
| VocabProj | 71.2 | 45.8 |
| TokenChange | 74.0 | 43.8 |
| EnsembleR (All) | 86.2 | 41.8 |
| EnsembleC (All) | 84.9 | 44.6 |
关键发现¶
- 输入方法与输出方法存在显著互补性:MaxAct 在输入评估上大幅领先(差距高达 15-30%),但在输出评估上被输出方法反超
- 集成方法在双面评估上均最优:EnsembleR(All) 在 Gemma-2 上的输入评估比单一最优方法提高 6-10%
- VocabProj 有时可替代 MaxAct:在 Gemma-2 残差流 SAE 上,VocabProj 的输入评估(50.1)与 MaxAct(56.6)差距不大,但计算成本极低
- 输出方法可激活"死亡"特征:实验表明输出中心方法能发现此前未找到激活输入的"死亡"SAE 特征
亮点与洞察¶
- 双面评估框架是对可解释性评测的重要补充:此前的评估几乎完全忽略输出侧,本文揭示了这一盲区
- VocabProj 的极致简洁:仅一次矩阵乘法即可得到有意义的特征描述,这在需要解释数百万特征的大规模管道中极为实用
- 输入-输出组合产生新语义:两个视角的组合有时揭示出单独无法发现的语义(如商业竞争语境 + 战争概念 = 商业战争隐喻),这对理解 LLM 的内部表示具有深刻启发
- 对模型编辑和机器遗忘的实用价值:更忠实的特征描述直接提升了下游应用的可靠性
局限性¶
- 输出评估依赖 LLM 作为判断者(GPT-4o mini),引入了判断偏差
- VocabProj 对中间层特征的有效性可能低于首尾层(中间层表示与词表空间距离更远)
- TokenChange 需要选择合适的 clamping 强度 m,过大会导致输出退化而非有意义的转向
- 特征描述仍然是自然语言层面的近似,难以完全精确地捕捉高维向量空间中特征的复杂含义
- 未探讨多语言模型或多模态模型中的适用性
相关工作¶
- 自动可解释性管道:Bills et al. 2023(OpenAI 神经元解释)、Bricken et al. 2023(Anthropic SAE)、Paulo et al. 2024(扩展评估)
- 特征表示理解:Geva et al. 2021/2022(MLP 作为 key-value 记忆)、Antverg & Belinkov 2022(区分编码信息 vs 使用信息)
- SAE 特征:Gemma Scope (Lieberum et al. 2024)、Llama Scope (He et al. 2024)
- 模型转向:Templeton et al. 2024(特征 clamping 控制行为)
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐ |
| 实验充分性 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐⭐ |
| 实用影响 | ⭐⭐⭐⭐ |
| 综合评分 | 8.5/10 |