Enhancing Automated Interpretability with Output-Centric Feature Descriptions¶

会议: ACL 2025
arXiv: 2501.08319
领域: LLM NLP
关键词: 自动可解释性, 特征描述, 输出中心方法, 稀疏自编码器, 模型转向

一句话总结¶

提出两种以输出为中心的特征描述方法（VocabProj 和 TokenChange），弥补现有基于输入激活的自动可解释性流程只能捕获"什么激活了特征"而忽略"特征如何影响输出"的缺陷，并证明输入+输出方法的集成能生成最忠实的特征描述。

研究背景与动机¶

自动可解释性流程旨在为 LLM 中的特征（如 SAE 特征或神经元）生成自然语言描述。现有方法（以 MaxAct 为代表）通过寻找最大激活输入来推断特征含义，但存在三个根本性问题：

计算开销大：需要在大规模语料上计算激活值来寻找最大激活输入
理论缺陷：特征的因果角色由输入和输出两方面共同决定，仅依赖输入是片面的
应用导向问题：特征描述的常见用途是模型"转向"（steering），这本质是输出导向的任务，需要输出中心的描述

例如一个特征可能被竞争性商业语句激活（输入侧），但其对输出的影响是促进"战争"相关概念（如贸易战、竞价战争）。仅看输入完全无法捕捉这种输出效应。

方法详解¶

整体框架¶

作者提出双面评估框架和两种高效的输出中心方法：

输入侧评估：描述是否捕捉了什么激活了特征
输出侧评估：描述是否捕捉了特征激活时对模型输出的因果影响

关键设计¶

VocabProj（词表投影）： - 计算特征向量 v_f，经过 LayerNorm 后与 unembedding 矩阵 W_U 相乘投影到词表空间 - 取得分最高/最低的 token（最被促进/抑制的 token），送入解释器模型生成描述 - 计算代价极低：仅需一次矩阵乘法

TokenChange（Token 变化）： - 将 k 个随机 prompt 通过模型，收集 logit 值 - 对特征执行 clamping（固定激活值为高值 m），收集新 logit 值 - 计算每个 token 的平均 logit 变化量，取变化最大的 token 送入解释器 - 这是因果干预性的输出方法

集成策略： - Ensemble Raw：将多个方法的原始数据拼接后送入解释器 - Ensemble Concat：直接拼接各方法生成的描述

实验关键数据¶

主实验¶

在 Gemma-2 2B 残差流 SAE 特征上的评估（%，越高越好）：

方法	Input 评估	Output 评估
MaxAct	56.6	49.2
VocabProj	50.1	56.5
TokenChange	44.7	54.9
EnsembleR (MA+TC)	67.0	61.9
EnsembleR (All)	66.6	64.9
EnsembleC (All)	57.7	66.9

在 Llama-3.1 8B Instruct MLP 神经元上的评估：

方法	Input 评估	Output 评估
MaxAct	85.6	36.9
MaxAct++	89.8	39.0
VocabProj	71.2	45.8
TokenChange	74.0	43.8
EnsembleR (All)	86.2	41.8
EnsembleC (All)	84.9	44.6

关键发现¶

输入方法与输出方法存在显著互补性：MaxAct 在输入评估上大幅领先（差距高达 15-30%），但在输出评估上被输出方法反超
集成方法在双面评估上均最优：EnsembleR(All) 在 Gemma-2 上的输入评估比单一最优方法提高 6-10%
VocabProj 有时可替代 MaxAct：在 Gemma-2 残差流 SAE 上，VocabProj 的输入评估（50.1）与 MaxAct（56.6）差距不大，但计算成本极低
输出方法可激活"死亡"特征：实验表明输出中心方法能发现此前未找到激活输入的"死亡"SAE 特征

亮点与洞察¶

双面评估框架是对可解释性评测的重要补充：此前的评估几乎完全忽略输出侧，本文揭示了这一盲区
VocabProj 的极致简洁：仅一次矩阵乘法即可得到有意义的特征描述，这在需要解释数百万特征的大规模管道中极为实用
输入-输出组合产生新语义：两个视角的组合有时揭示出单独无法发现的语义（如商业竞争语境 + 战争概念 = 商业战争隐喻），这对理解 LLM 的内部表示具有深刻启发
对模型编辑和机器遗忘的实用价值：更忠实的特征描述直接提升了下游应用的可靠性

局限性¶

输出评估依赖 LLM 作为判断者（GPT-4o mini），引入了判断偏差
VocabProj 对中间层特征的有效性可能低于首尾层（中间层表示与词表空间距离更远）
TokenChange 需要选择合适的 clamping 强度 m，过大会导致输出退化而非有意义的转向
特征描述仍然是自然语言层面的近似，难以完全精确地捕捉高维向量空间中特征的复杂含义
未探讨多语言模型或多模态模型中的适用性

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐⭐
实用影响	⭐⭐⭐⭐
综合评分	8.5/10