Unveiling Language-Specific Features in Large Language Models via Sparse Autoencoders¶

会议: ACL 2025
arXiv: 2505.05111
代码: https://github.com/Aatrox103/multilingual-llm-features
领域: LLM / NLP
关键词: Sparse Autoencoders, Multilingual LLM, Language-Specific Features, Mechanistic Interpretability, Steering Vectors

一句话总结¶

利用 Sparse Autoencoders (SAEs) 分析多语言 LLM 的内部表示，发现存在强烈的语言特定 SAE features，这些 features 不仅与语言特有 token 相关还与语言上下文相关，消融它们只影响对应语言能力，且多个语言 features 之间存在协同效应；进一步利用这些 features 增强 steering vectors 实现对生成语言的精确控制。

研究背景与动机¶

多语言 LLM 的机制理解¶

随着 Gemini 1.5、Qwen2、LLaMA 3 等模型强调多语言能力，理解 LLM 如何在内部处理不同语言的机制变得至关重要。

现有分析方法的局限性¶

Neuron-based 方法（识别语言特定神经元）：受 "superposition" 问题影响——单个神经元可能编码多个不相关概念，导致分析不可靠
Internal-activation-based 方法（使用最终层 unembedding matrix 获取中间层 token 分布）：除最后几层外误差很大，因为不同层的激活分布差异较大

SAE 的优势¶

Sparse Autoencoders 将 LLM 激活分解为稀疏线性组合的 SAE features，具有三个优势： - 可应用于单个 token，比 neuron-based 方法更单义 - 每层独立训练，比 activation-based 方法在跨层分析时更可靠 - 多语言平行数据天然适合识别单语 features

方法详解¶

整体框架¶

研究分为四个层次递进的部分： 1. 发现语言特定 features：提出单语性度量指标 2. 分析 code-switching：证明 features 与语言上下文（而非仅 token）相关 3. 消融实验：验证 features 对语言能力的因果影响 4. Steering vectors 增强：用 features 作为 gating 信号实现语言控制

关键设计¶

1. 单语性度量指标 ν¶

给定 K 种语言的残差流集合 \(\mathcal{D} = \{\mathcal{D}_1, ..., \mathcal{D}_K\}\)，feature s 对语言 L 的单语性：

\[\nu_s^L = \mu_s^L - \gamma_s^L\]

其中 \(\mu_s^L\) 是 feature s 在语言 L 上的平均激活，\(\gamma_s^L\) 是其在其他语言上的平均激活。\(\nu\) 越大表示该 feature 越强烈地与特定语言相关。

发现： - top-4 features 的 ν 值显著高于随机 feature（随机 feature 接近零） - 大多数语言中，rank #1 feature 的 ν 值明显高于其他 features - 某些语言的 rank #2 feature 也有较大的 ν 值

2. Code-Switching 实验设计¶

使用 GPT-4o 生成各语言句子（以名词结尾），然后将名词替换为其他语言的等价词。例如：

原始（西班牙语前缀 + 西班牙语名词）
Code-switch（西班牙语前缀 + 法语名词）
独立名词（无前缀）

计算在有/无前缀情况下结尾名词的语言特定 feature 激活值。

实验结果： - 西班牙语前缀增强了非西班牙语名词的西班牙语 feature 激活 - 深层比浅层增强更显著 - 法语名词（同语系）比韩语名词（不同语系）增强更多 - 西班牙语前缀降低了非西班牙语名词原始语言的 feature 激活

3. Directional Ablation¶

通过投影消除 feature 方向来"零化"语言特定 features：

\[x' \leftarrow x - \hat{d}\hat{d}^\intercal x\]

消融后用修改的残差流继续前向传播
测量不同语言文本的 CE loss 变化

4. 协同效应分析¶

对比单独消融 top-1 和 top-2 法语 features 与同时消融的效果： - 法语文本：同时消融的 CE loss 增加 > 单独效果之和（协同效应） - 西班牙语/日语文本：同时消融 ≈ 单独效果之和（无协同效应）

5. 增强 Steering Vectors¶

传统 steering vector 通过正/负 prompt 集的均值激活差计算：

\[v = \frac{1}{|\mathcal{X}_+|}\sum_{x \in \mathcal{X}_+} a_L(x) - \frac{1}{|\mathcal{X}_-|}\sum_{x \in \mathcal{X}_-} a_L(x)\]

改进：用语言特定 features 作为 gating 信号控制 steering vectors，实现更精确的语言切换控制。

损失函数 / 训练策略¶

本文属于分析性工作，不涉及模型训练。SAE 使用现有的预训练版本： - Gemma Scope 用于 Gemma 2 2B/9B - Llama Scope 用于 Llama-3.1-8B - 分析数据：Flores-10（从 Flores-200 中提取的 10 种语言子集）

实验关键数据¶

主实验¶

Adversarial Language Identification 任务（Gemma 2 2B）：

方法	Es 成功率/其他CE	Fr	Ja	Ko	Zh
SV L1	92.1/4.7	92.6/4.5	86.1/5.4	95.2/5.3	84.7/5.2
SAE L3	95.8/4.2	96.7/4.2	89.2/4.0	95.4/4.4	71.9/4.3

Gemma 2 9B 的 Cross-Lingual Continuation 任务：

方法	Es 成功率/其他CE	Fr	Vi	Ko
SV L1	82.2/4.1	85.3/4.0	83.6/4.1	93.0/4.6
SAE L3	96.2/3.4	94.6/2.9	95.3/2.8	93.6/4.3

关键发现¶

语言特定 features 确实存在：在 Gemma 2 2B/9B 和 Llama 3.1 8B 上一致观察到
features 不仅是 token 级别的：code-switching 实验证明它们编码了语言上下文信息
消融影响是语言特定的：消融法语 features 主要增加法语文本的 CE loss，对其他语言几乎无影响
协同效应仅在目标语言内存在：多个法语 features 同时消融对法语的影响 > 单独效果之和
语言相似性有影响：法语 rank #2 feature 在某些层也是西班牙语 top-2 features，解释了消融法语 features 对西班牙语有一定影响
SAE 增强的 steering vectors 更优：在成功率/对其他语言影响的平衡上优于普通 steering vectors
中文控制较难：SAE 方法在中文上的 steering 效果不如其他语言，可能因为中文的特征更分散

亮点与洞察¶

机制可解释性的新工具：首次系统地用 SAE 分析 LLM 的多语言机制，比 neuron-based 和 activation-based 方法更可靠
对"superposition"问题的有效回应：SAE 将多语义神经元分解为单义 features，绕过了 superposition 问题
从分析到应用的完整链条：不仅分析了 features 的存在和性质，还展示了实际应用（增强 steering vectors）
Code-switching 实验设计精巧：通过控制变量（前缀语言 × 名词语言）清晰展示了上下文依赖性
协同效应的发现：揭示了同一语言的多个 features 之间的非线性互作，对理解 LLM 内部表示结构有重要意义

局限性 / 可改进方向¶

主要关注非英语语言：英语作为主要训练语言有不同特性，但本文未深入分析英语的 features
SAE 自身的局限性：SAE 的稀疏性假设可能不完全成立，重建误差可能忽略重要信息
语言集合有限：仅分析 10 种语言，缺少非洲、大洋洲等资源极低语言
因果关系需更多验证：消融实验显示相关性，但模型可能有冗余编码路径
Steering vectors 的实际应用场景有限：语言控制的需求相比内容安全控制更小众
未分析训练数据的影响：语言特定 features 的强度是否与训练数据中该语言的占比正相关？

评分¶

维度	分数 (1-10)	说明
创新性	8	SAE 分析多语言机制的视角新颖，gating 改进 steering vectors 有巧思
实验充分性	9	多模型、多语言、code-switching、消融、协同效应、应用全覆盖
写作质量	8	层次递进清晰，图表直观
实用价值	7	分析性贡献为主，steering vectors 应用场景偏窄
总分	8	高质量的机制分析工作，对理解多语言 LLM 有重要意义