Exploring the Translation Mechanism of Large Language Models¶
会议: NeurIPS 2025 arXiv: 2502.11806 代码: 有(论文附链接) 领域: NLP理解 / 机制可解释性 关键词: translation mechanism, mechanistic interpretability, attention head, path patching, subspace intervention
一句话总结¶
提出 subspace-intervened path patching 方法对 LLM 翻译机制进行精细因果分析,发现翻译由不到 5% 的稀疏 attention head 驱动——分为 source head、indicator head、positional head 三类功能角色,MLP 将其特征整合为以英语为中心的中间表示,仅微调 64 个关键 head 即可匹配全参数微调性能。
研究背景与动机¶
- 领域现状:LLM 展现出强大的多语言翻译能力,但其内部核心翻译机制——即使在基础的词级翻译中——仍不清楚。之前的分析多停留在表面观察层面(神经元激活模式、中间表示可视化),而非揭示因果计算机制。
- 现有痛点:(1) 传统 path patching 在整个激活向量上干预,粒度太粗,产生噪声;(2) 对 decoder-only LLM 的翻译机制缺乏系统研究(之前集中在 encoder-decoder 架构);(3) 不清楚哪些 attention head 做什么、MLP 如何参与翻译。
- 核心矛盾:需要在 LLM 高维激活空间中精确定位翻译相关的因果效应,同时过滤掉与翻译无关的激活维度。
- 本文要解决什么? 系统性回答三个问题:哪些组件对翻译至关重要?这些组件表现出什么行为模式?微调这些组件能否提升翻译能力?
- 切入角度:线性表示假说——激活向量的线性子空间是最可解释的模型组件。通过对比正/负(有/无翻译逻辑的)数据对提取"翻译导向子空间",仅在该子空间内做干预。
- 核心idea一句话:在翻译导向子空间内做 path patching 以精确定位翻译关键组件,发现三类功能化 attention head + 英语中心 MLP 处理的稀疏翻译电路。
方法详解¶
整体框架¶
三步系统框架:(1) 用 subspace-intervened path patching 检测翻译关键组件;(2) 分析关键 attention head 的功能角色和 MLP 的表示特征;(3) 基于发现设计靶向微调策略验证。
关键设计¶
- Subspace-Intervened Path Patching:
- 做什么:在组件激活的"翻译导向子空间"内进行因果干预,而非整个激活向量
- 核心思路:用对比数据对(有翻译逻辑 \(X_+\) vs 无翻译逻辑 \(X_-\))计算激活差异矩阵 \(\mathbf{M}_c\),通过正交分解(优化目标 Eq.1)将其分为通用翻译导向子空间 \(\mathbf{S}_c\) 和数据集特定子空间 \(\mathbf{E}_c\)。干预时仅替换 \(\mathbf{S}_c\) 方向的分量:\(\tilde{\mathbf{a}}_c = W_cW_c^T\mathbf{a}_c(X_-) + (I-W_cW_c^T)\mathbf{a}_c(X_+)\)
-
设计动机:标准 path patching 替换整个激活向量会引入非翻译相关的干扰,subspace 投影精确隔离翻译信号
-
三类功能化 Attention Head:
- 做什么:通过 attention 权重分析将关键 head 分为 source head(关注源语言 token)、indicator head(关注翻译指令 token 如 "中文:")、positional head(维持序列位置信息)
- 核心思路:分析每个关键 head 的 attention 分布——与源语言词、指令词、位置的对齐程度
-
设计动机:理解"为什么"这些 head 重要——它们各自提取翻译任务所需的不同类型信息
-
英语中心 MLP 处理:
- 做什么:证明 MLP 层将 attention head 提取的多语言特征整合为以英语为中心的中间表示
- 核心思路:测量 MLP 各层的隐藏表示与英语/源语言/目标语言 token 嵌入的相关性,发现中间层 MLP 的表示与英语嵌入高度相关
- 设计动机:验证了之前"LLM 用英语作为隐式计算枢纽"的假说,并从因果层面证实
验证:靶向微调¶
仅微调检测到的 64 个关键 attention head(<5% 参数),在词级和句级翻译上均达到或超过全参数微调的性能。
实验关键数据¶
关键组件统计(LLaMA2-7B)¶
| 指标 | 数值 |
|---|---|
| 翻译关键 attention head 占比 | <5% |
| 跨语言对 head 重叠率(同源/目标) | >70% |
| 跨双向翻译 head 重叠率 | >60% |
| 关键 head 集中层区间 | 12-20 层 + 最后 2 层 |
靶向微调 vs 全参数微调¶
| 配置 | 参数量 | 翻译性能 |
|---|---|---|
| 全参数微调 | 100% | 基线 |
| 仅微调 64 个 head | <5% | 可比或更好 |
| 微调 top-5 共享 head | - | 词级 -39% logits |
Knockout 验证¶
| 操作 | 翻译准确率变化 |
|---|---|
| 逐步敲除关键 head | 显著下降(从 90%→<30%) |
| 逐步敲除随机 head | 波动 <2% |
| 敲除关键 MLP | 类似显著下降 |
关键发现¶
- 翻译关键 head 具有高度跨语言迁移性——不同翻译方向共享大量关键 head
- MLP 的翻译关键性集中在 15 层之后,最后一层 MLP 对目标 token logit 变化高达 50%
- 低资源语言(斯瓦希里语、孟加拉语、阿拉伯语)也表现出相同的稀疏性和迁移性
亮点与洞察¶
- Subspace 投影 path patching:通过在翻译特定子空间内干预,大幅提升了因果分析的精度和可解释性,这种方法可推广到其他任务的机制分析
- 三类 head 的功能分化:清晰地将翻译过程分解为"提取源语言内容 → 识别翻译任务信号 → 维护位置信息"三个子功能
- <5% 参数微调实验:将机制理解直接转化为实用的参数高效微调策略
局限性 / 可改进方向¶
- 主要在词级翻译上分析:虽然验证了句级迁移,但核心分析仍在简化的词级设置
- 仅分析 LLaMA2-7B:更大模型(70B+)的翻译机制可能有所不同
- 反事实模板设计:负样本构造(替换翻译指令词)可能无法完全隔离翻译信号
相关工作与启发¶
- vs Voita et al. (2019) encoder-decoder head pruning: 本文首次在 decoder-only LLM 上做类似分析,发现稀疏性和功能分化的结论跨架构一致
- vs Wendler et al. (2024) 英语枢纽假说: 从因果层面(而非仅相关性)证实了英语中心处理假说
评分¶
- 新颖性: ⭐⭐⭐⭐ subspace path patching 和三类 head 分类是新贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 6个翻译方向 + 低资源语言 + 句级验证 + 数学推理迁移 + knockout + 微调
- 写作质量: ⭐⭐⭐⭐ 分析层层递进,图表清晰
- 价值: ⭐⭐⭐⭐⭐ 对理解 LLM 翻译机制有重大推进,靶向微调策略有直接实用价值