Enhancing Automated Interpretability with Output-Centric Feature Descriptions¶

论文信息¶

提出基于输出的特征描述方法（VocabProj和TokenChange），弥补了现有自动化可解释性管线仅依赖输入激活样本的局限，结合输入-输出双视角的集成方法在两类评估中均取得最优表现。

领域现状: 自动化可解释性管线（如Bills et al., 2023）通过LLM描述模型特征（神经元、SAE方向等）所编码的概念，广泛采用MaxAct方法——收集最大激活输入样本让LLM生成描述。
MaxAct的三大缺陷: (1) 计算成本高：需要在大规模语料上收集激活数据；(2) 因果不完整：仅描述"什么输入激活特征"而忽略"特征激活如何影响输出"；(3) 数据集依赖：不同数据集可能导致不一致的描述，甚至将有意义的特征误判为"死特征"。
关键洞察: 特征的机制性角色由因果关系的两个方向决定——输入如何激活特征（input→feature）和特征激活如何影响输出（feature→output）。特征描述在模型转向(steering)等下游应用中应当是输出导向的。
核心提案: 提出两种高效的输出导向方法，分别基于词表投影和token概率变化，并与MaxAct互补结合。

提出输入-输出双面评估框架：输入侧评估描述对激活触发条件的刻画准确性，输出侧评估描述对特征因果效应的捕获能力。在此框架下比较三种方法及其集成。

VocabProj（词表投影）: 将特征向量 \(\mathbf{v}_f\) 通过unembedding矩阵投影到词表空间 \(\mathbf{w} = W_U \cdot \text{LayerNorm}(\mathbf{v}_f)\)，取得分最高/最低的token作为该特征"促进/抑制"的概念，仅需一次矩阵乘法
TokenChange（Token变化）: 在k个随机prompt上分别运行原始模型和激活特征后的模型，计算各token logit的平均变化，取变化最大的token作为特征影响的概念描述，需≤2次推理
双面评估框架: 输入侧让LLM根据描述生成应激活/不激活样本，比较平均激活值；输出侧通过模型转向生成三组文本（目标特征 vs 两个随机特征），让judge LLM判断哪组匹配描述

方法	Gemma-2 Res. SAE (Input/Output)	Gemma-2 MLP SAE (Input/Output)	Llama-3.1 Inst. MLP (Input/Output)
MaxAct	56.6 / 49.2	50.4 / 35.1	85.6 / 36.9
VocabProj	50.1 / 56.5	20.9 / 37.2	71.2 / 45.8
TokenChange	44.7 / 54.9	22.3 / 40.3	74.0 / 43.8
EnsembleR (All)	66.6 / 64.9	55.7 / 48.7	86.2 / 41.8
EnsembleC (All)	57.7 / 66.9	31.6 / 49.9	84.9 / 44.6

输入与输出视角互补: MaxAct在输入评估上占优（+6-15%），VocabProj/TokenChange在输出评估上占优（+7-15%），说明两类方法捕获了不同的特征信息
集成一致性最优: Ensemble Raw在输入评估最优，Ensemble Concat在输出评估最优；三方法集成在所有模型/特征类型上一致优于任何单一方法
死特征可复活: 对Gemma-2中1850个"死特征"，通过VocabProj和TokenChange描述生成的探测输入成功激活了9.1%的MLP特征和62%的残差特征
层位效应: VocabProj在早期层表现较差但逐层提升，与"logit lens"的已有观察一致
MLP vs 残差: 输出评估在MLP特征上显著低于残差特征（45-50 vs ~66），可能因MLP层对残差流的影响是渐进式的

总结: 本文的核心贡献在于将特征描述从单一的输入视角扩展为输入-输出双面问题，提出的VocabProj方法计算成本极低且效果可观。死特征复活实验尤为亮眼，直接证明了输出导向方法的不可替代性。对可解释性研究社区具有重要的方法论启示。