Finding the Translation Switch: Discovering and Exploiting the Task-Initiation Features in LLMs¶
会议: AAAI 2026
arXiv: 2601.11019
代码: github
领域: 模型压缩
关键词: 稀疏自编码器, 机制可解释性, 翻译特征发现, 因果干预, 数据选择
一句话总结¶
利用稀疏自编码器(SAE)发现 LLM 中控制翻译任务启动的"翻译启动特征",通过因果干预验证其功能(增强特征→提升翻译质量/减少幻觉,消除特征→产生幻觉),并将该机制洞察转化为实用的数据选择策略——优先在"机制困难"样本上微调,显著提升数据效率和抑制幻觉。
研究背景与动机¶
领域现状¶
LLM(如 Gemma-2、LLaMA-3)即使未经过专门的翻译训练,也能展现出 zero-shot 翻译能力。早期假说将此归因于预训练数据中意外包含的平行语料("偶然双语性"),但后续研究表明即使去除这些数据,翻译能力仍然存在。
现有痛点¶
机制不透明:LLM 内部是通过什么机制实现翻译的?数据驱动的解释路线在万亿 token 规模上计算不可行
翻译幻觉严重:LLM 翻译时经常出现不忠实输出——输出错误语言、空输出、拒绝翻译、重复源语言等
微调数据效率低:传统的数据选择策略(随机、高质量、高损失)缺乏面向模型内部机制的信号
核心矛盾¶
LLM 具有内在的翻译能力,但这种能力不总是被可靠地激活,导致幻觉。理解和利用激活翻译的内部机制,可以同时解决可解释性和实用性问题。
切入角度¶
从模型内部表示出发,使用 SAE 将稠密的隐藏状态分解为稀疏的、可解释的特征,然后通过三阶段框架发现与翻译任务因果相关的特征集合。关键创新:不仅做分析,还将发现转化为实用的数据选择策略。
方法详解¶
整体框架¶
三阶段特征发现框架 + 后续的机制驱动数据选择应用: 1. 高频特征召回:找出与翻译输入高频共激活的候选特征 2. 特征影响向量表征:计算每个候选特征对残差流的方向性影响 3. 一致性过滤:用 PCA 一致性得分筛选功能一致的特征集合 4. 应用:基于特征激活的数据选择策略进行高效微调
关键设计¶
-
Stage 1: 高频特征召回(High-Frequency Feature Recall):
- 功能:从 SAE 的数万个特征中筛选与翻译任务相关的候选集
- 核心思路:
- 在三个关键 token 位置监控特征激活:源文本末尾(src_last)、目标语言 token(tgt_lang)、输入末尾(input_last)
- 一个特征在任一位置激活即视为"存在"
- 保留在 ≥60% 样本中"存在"的特征
- 结果:Gemma-2-2B-IT 召回 1,004 个候选,Gemma-2-9B-IT 召回 2,485 个
- 发现:任务相关特征密度随模型深度增加而增大,且该分布模式在不同模型规模间高度一致
-
Stage 2: 特征影响向量表征(Feature Influence Vector Characterization):
- 功能:量化每个候选特征对模型残差流的方向性影响
- 核心公式: \(\mathbf{v}_{l,j} \triangleq \hat{\mathbf{h}}_{\text{intervene}} - \hat{\mathbf{h}}_{\text{base}}\) 其中 \(\hat{\mathbf{h}}_{\text{intervene}}\) 是将特征 \(f_{l,j}\) 的激活强制设为高值 \(\alpha_{act}\) 后的 SAE 重构输出
- 设计动机:共激活只表明相关性,不保证因果性。通过测量特征干预后隐藏状态的变化方向来表征其功能性
-
Stage 3: 基于一致性的过滤(Consistency-Based Filtering):
- 功能:验证候选特征是否构成功能一致的集合
- PCA 一致性得分: \(\rho = \lambda_{\max}\left(\frac{1}{n}\mathbf{U}^T\mathbf{U}\right)\) 其中 \(\mathbf{U}\) 是归一化后的特征影响向量矩阵
- 阈值:\(\tau_{cons} = 0.95\),仅保留主成分解释方差超过 95% 的特征组
- 结果:将 Gemma-2-2B-IT 的 1,004 个候选精简至仅 45 个高一致性特征
- 设计动机:如果一组特征真的代表同一个功能,它们的影响向量应高度对齐。大部分高频特征的对齐分数中位数低于0.4,只有少数达到 >0.95
-
机制驱动的数据选择(Mechanistic Data Selection):
- 功能:利用翻译启动特征的激活作为"内在困难度"指标,选择"机制困难"样本进行微调
- 核心思路:
- "机制困难"样本 = 未能自然激活翻译启动特征的样本
- 这些样本理论上最能帮助模型强化翻译启动机制
- 策略对比:
- S0: 随机选择
- S1: 高 COMET 分数(高质量)
- S2: 高 COMET + 高训练损失(困难挖掘)
- S3: 高 COMET + 最低特征激活(机制选择,本文方法)
训练/干预细节¶
- 分析模型:Gemma-2-2B-IT,使用 Google 开源的预训练 SAE
- SAE 将2304维隐藏状态扩展至16384维稀疏特征
- 特征发现仅用98个样本,测试用 ~900 个样本
- 微调数据:100k 英中平行句对
实验关键数据¶
主实验¶
因果干预实验(Gemma-2-2B-IT,跨语言泛化):
| 语言对 | 指标 | 原始模型 | +l12-f2291 | +l13-f3517 |
|---|---|---|---|---|
| en→zh | COMET↑ | 73.62 | 77.98 | 77.83 |
| en→zh | 幻觉率↓ | 19.15% | 10.42% | 10.22% |
| en→ja | COMET↑ | 44.80 | 47.62 | 47.95 |
| en→ja | 幻觉率↓ | 30.76% | 17.89% | 20.36% |
| en→ru | COMET↑ | 54.36 | 55.59 | 57.20 |
| en→ru | 幻觉率↓ | 29.46% | 16.37% | 19.26% |
| en→ar | COMET↑ | 40.52 | 42.02 | 42.38 |
| en→ar | 幻觉率↓ | 42.48% | 29.47% | 32.76% |
关键发现:仅在 en→zh 上发现的特征,在4种语言对上都显著降低幻觉率(最大从42.48%降至29.47%),证明其编码的是语言无关的任务启动功能。
消融实验 — 一致性得分 vs 因果影响(Gemma-2-2B-IT,en→zh):
| 一致性得分区间 | 消除特征→幻觉率变化 | 增强特征→COMET变化 | 说明 |
|---|---|---|---|
| 低 (<0.5) | 微弱 | 微弱 | 无因果影响 |
| 中 (0.5-0.95) | 中等 | 中等 | 部分因果 |
| 高 (>0.95) | +47.99% 幻觉率 | -8.49 COMET | 强因果影响 |
微调数据选择实验¶
Part 1: 模型自身特征选择(20k训练数据):
| 模型 | 方法 | COMET↑ | 幻觉率↓ |
|---|---|---|---|
| Gemma-2-2B-IT | 原始 | 73.62 | 19.15% |
| S0: 随机 | 82.49 | 3.62% | |
| S1: 高质量 | 83.32 | 2.12% | |
| S2: 高损失 | 82.14 | 4.32% | |
| S3: 机制选择 | 83.37 | 0.90% | |
| LLaMA-3.1-1B-IT | 原始 | 57.61 | 32.24% |
| S3: 机制选择 | 77.92 | 2.39% |
Part 2: 跨模型迁移(50k训练数据,用2B特征选数据):
| 模型 | 方法 | COMET↑ | 幻觉率↓ | 说明 |
|---|---|---|---|---|
| Gemma-2-9B-IT | S0: 随机 | 85.36 | 4.21% | |
| S3: 机制选择 | 86.48 | 0.60% | 同家族迁移成功 | |
| LLaMA-3.2-8B-IT | S1: 高质量 | 86.69 | 0.10% | |
| S3: 机制选择 | 86.34 | 0.30% | 跨家族迁移失败 |
Part 3: 数据比例影响(Gemma-2-2B-IT,Skyline=全量100k训练的83.58分):
| 数据比例 | S0(随机) | S1(高质量) | S3(机制选择) |
|---|---|---|---|
| 20% | ~80 | ~82 | ~83 |
| 50% | ~82 | ~83.5 | 83.68(>Skyline) |
| 80% | ~83 | ~83.5 | ~83.7 |
关键发现¶
- 翻译启动特征是语言无关的:在 en→zh 发现的特征universal地提升了4种语言对的翻译质量
- 特征的功能是促进"翻译框架 token"的生成:增强特征后,翻译框架 token(如"翻译如下"类标记)的生成率从46.4%升至77.1%(阿拉伯语)
- 因果影响与一致性得分严格正相关:高一致性特征消除后幻觉率飙升47.99%,低一致性特征几乎无影响
- 机制洞察可实用化:仅50%的数据通过机制选择即超越100%全量训练的性能
- 迁移有家族限制:Gemma→Gemma 的迁移高度有效,Gemma→LLaMA 则无效,说明不同架构家族的翻译机制不同
亮点与洞察¶
- 从分析到应用的完整闭环:不仅发现了可解释的翻译机制,还将其转化为实用的数据选择策略,是机制可解释性研究的范例
- 三阶段过滤框架的设计智慧:从1004个候选→45个核心特征,每阶段都有明确的信号(频率→方向→一致性)
- PCA一致性指标的优雅:用单一标量量化一组特征的功能一致性,简洁有效
- "机制困难"概念的提出:用内部特征激活而非外部指标来定义数据困难度,提供了全新的数据选择视角
- 迁移性实验揭示了架构家族的边界:同家族的神经回路可迁移,跨家族则不行——这对实践中模型选择有指导意义
局限与展望¶
- 依赖 Google 开源的预训练 SAE,对于没有公开 SAE 的模型无法直接应用
- 特征发现仅用98个样本,虽然足够但鲁棒性未充分验证
- 直接因果干预(推理时增强/消除特征)计算开销过大,论文承认这一点并转向数据选择策略
- 仅在翻译任务上验证,框架的通用性(如用于摘要、问答等任务的特征发现)有待探索
- 仅分析了 MLP 层的 SAE 特征,注意力层的特征可能也有重要作用
相关工作与启发¶
- SAE 可解释性(Cunningham et al. 2023; Templeton et al. 2024):SAE 将稠密表示分解为稀疏特征的技术基础
- 偶然双语性假说(Li & Flanigan 2024):认为翻译能力来自预训练数据中的隐式平行语料,本文提供了替代性的机制解释
- 数据选择(Xia et al. 2024):传统方法基于外部质量/困难度指标,本文提出了基于内部机制的新维度
- 启发:该三阶段框架可推广到任何任务的特征发现——先召回、再表征、最后过滤。"机制困难"的概念可能改变微调数据工程的范式
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (三阶段特征发现+机制数据选择,创意出色)
- 实验充分度: ⭐⭐⭐⭐⭐ (因果干预+跨语言+微调迁移+数据比例,极其充分)
- 写作质量: ⭐⭐⭐⭐⭐ (逻辑严密,从发现到应用的故事线完整)
- 价值: ⭐⭐⭐⭐⭐ (兼具理论深度和实用价值,机制可解释性的标杆工作)
相关论文¶
- [CVPR 2026] Language Models Can Explain Visual Features via Steering
- [AAAI 2026] SCoPe: Intrinsic Semantic Space Control for Mitigating Copyright Infringement in LLMs
- [NeurIPS 2025] Fantastic Features and Where to Find Them: A Probing Method to Combine Features from Multiple Foundation Models
- [ACL 2026] SITE: Soft Head Selection for Injecting ICL-Derived Task Embeddings
- [ICLR 2026] Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language