跳转至

Exploring the Translation Mechanism of Large Language Models

会议: NeurIPS 2025 arXiv: 2502.11806 代码: 有(论文附链接) 领域: NLP理解 / 机制可解释性 关键词: translation mechanism, mechanistic interpretability, attention head, path patching, subspace intervention

一句话总结

提出 subspace-intervened path patching 方法对 LLM 翻译机制进行精细因果分析,发现翻译由不到 5% 的稀疏 attention head 驱动——分为 source head、indicator head、positional head 三类功能角色,MLP 将其特征整合为以英语为中心的中间表示,仅微调 64 个关键 head 即可匹配全参数微调性能。

研究背景与动机

  1. 领域现状:LLM 展现出强大的多语言翻译能力,但其内部核心翻译机制——即使在基础的词级翻译中——仍不清楚。之前的分析多停留在表面观察层面(神经元激活模式、中间表示可视化),而非揭示因果计算机制。
  2. 现有痛点:(1) 传统 path patching 在整个激活向量上干预,粒度太粗,产生噪声;(2) 对 decoder-only LLM 的翻译机制缺乏系统研究(之前集中在 encoder-decoder 架构);(3) 不清楚哪些 attention head 做什么、MLP 如何参与翻译。
  3. 核心矛盾:需要在 LLM 高维激活空间中精确定位翻译相关的因果效应,同时过滤掉与翻译无关的激活维度。
  4. 本文要解决什么? 系统性回答三个问题:哪些组件对翻译至关重要?这些组件表现出什么行为模式?微调这些组件能否提升翻译能力?
  5. 切入角度:线性表示假说——激活向量的线性子空间是最可解释的模型组件。通过对比正/负(有/无翻译逻辑的)数据对提取"翻译导向子空间",仅在该子空间内做干预。
  6. 核心idea一句话:在翻译导向子空间内做 path patching 以精确定位翻译关键组件,发现三类功能化 attention head + 英语中心 MLP 处理的稀疏翻译电路。

方法详解

整体框架

三步系统框架:(1) 用 subspace-intervened path patching 检测翻译关键组件;(2) 分析关键 attention head 的功能角色和 MLP 的表示特征;(3) 基于发现设计靶向微调策略验证。

关键设计

  1. Subspace-Intervened Path Patching:
  2. 做什么:在组件激活的"翻译导向子空间"内进行因果干预,而非整个激活向量
  3. 核心思路:用对比数据对(有翻译逻辑 \(X_+\) vs 无翻译逻辑 \(X_-\))计算激活差异矩阵 \(\mathbf{M}_c\),通过正交分解(优化目标 Eq.1)将其分为通用翻译导向子空间 \(\mathbf{S}_c\) 和数据集特定子空间 \(\mathbf{E}_c\)。干预时仅替换 \(\mathbf{S}_c\) 方向的分量:\(\tilde{\mathbf{a}}_c = W_cW_c^T\mathbf{a}_c(X_-) + (I-W_cW_c^T)\mathbf{a}_c(X_+)\)
  4. 设计动机:标准 path patching 替换整个激活向量会引入非翻译相关的干扰,subspace 投影精确隔离翻译信号

  5. 三类功能化 Attention Head:

  6. 做什么:通过 attention 权重分析将关键 head 分为 source head(关注源语言 token)、indicator head(关注翻译指令 token 如 "中文:")、positional head(维持序列位置信息)
  7. 核心思路:分析每个关键 head 的 attention 分布——与源语言词、指令词、位置的对齐程度
  8. 设计动机:理解"为什么"这些 head 重要——它们各自提取翻译任务所需的不同类型信息

  9. 英语中心 MLP 处理:

  10. 做什么:证明 MLP 层将 attention head 提取的多语言特征整合为以英语为中心的中间表示
  11. 核心思路:测量 MLP 各层的隐藏表示与英语/源语言/目标语言 token 嵌入的相关性,发现中间层 MLP 的表示与英语嵌入高度相关
  12. 设计动机:验证了之前"LLM 用英语作为隐式计算枢纽"的假说,并从因果层面证实

验证:靶向微调

仅微调检测到的 64 个关键 attention head(<5% 参数),在词级和句级翻译上均达到或超过全参数微调的性能。

实验关键数据

关键组件统计(LLaMA2-7B)

指标 数值
翻译关键 attention head 占比 <5%
跨语言对 head 重叠率(同源/目标) >70%
跨双向翻译 head 重叠率 >60%
关键 head 集中层区间 12-20 层 + 最后 2 层

靶向微调 vs 全参数微调

配置 参数量 翻译性能
全参数微调 100% 基线
仅微调 64 个 head <5% 可比或更好
微调 top-5 共享 head - 词级 -39% logits

Knockout 验证

操作 翻译准确率变化
逐步敲除关键 head 显著下降(从 90%→<30%)
逐步敲除随机 head 波动 <2%
敲除关键 MLP 类似显著下降

关键发现

  • 翻译关键 head 具有高度跨语言迁移性——不同翻译方向共享大量关键 head
  • MLP 的翻译关键性集中在 15 层之后,最后一层 MLP 对目标 token logit 变化高达 50%
  • 低资源语言(斯瓦希里语、孟加拉语、阿拉伯语)也表现出相同的稀疏性和迁移性

亮点与洞察

  • Subspace 投影 path patching:通过在翻译特定子空间内干预,大幅提升了因果分析的精度和可解释性,这种方法可推广到其他任务的机制分析
  • 三类 head 的功能分化:清晰地将翻译过程分解为"提取源语言内容 → 识别翻译任务信号 → 维护位置信息"三个子功能
  • <5% 参数微调实验:将机制理解直接转化为实用的参数高效微调策略

局限性 / 可改进方向

  • 主要在词级翻译上分析:虽然验证了句级迁移,但核心分析仍在简化的词级设置
  • 仅分析 LLaMA2-7B:更大模型(70B+)的翻译机制可能有所不同
  • 反事实模板设计:负样本构造(替换翻译指令词)可能无法完全隔离翻译信号

相关工作与启发

  • vs Voita et al. (2019) encoder-decoder head pruning: 本文首次在 decoder-only LLM 上做类似分析,发现稀疏性和功能分化的结论跨架构一致
  • vs Wendler et al. (2024) 英语枢纽假说: 从因果层面(而非仅相关性)证实了英语中心处理假说

评分

  • 新颖性: ⭐⭐⭐⭐ subspace path patching 和三类 head 分类是新贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 6个翻译方向 + 低资源语言 + 句级验证 + 数学推理迁移 + knockout + 微调
  • 写作质量: ⭐⭐⭐⭐ 分析层层递进,图表清晰
  • 价值: ⭐⭐⭐⭐⭐ 对理解 LLM 翻译机制有重大推进,靶向微调策略有直接实用价值