Exploring the Translation Mechanism of Large Language Models¶

会议: NeurIPS 2025 arXiv: 2502.11806 代码: 有（论文附链接）领域: NLP理解 / 机制可解释性 关键词: translation mechanism, mechanistic interpretability, attention head, path patching, subspace intervention

一句话总结¶

提出 subspace-intervened path patching 方法对 LLM 翻译机制进行精细因果分析，发现翻译由不到 5% 的稀疏 attention head 驱动——分为 source head、indicator head、positional head 三类功能角色，MLP 将其特征整合为以英语为中心的中间表示，仅微调 64 个关键 head 即可匹配全参数微调性能。

研究背景与动机¶

领域现状：LLM 展现出强大的多语言翻译能力，但其内部核心翻译机制——即使在基础的词级翻译中——仍不清楚。之前的分析多停留在表面观察层面（神经元激活模式、中间表示可视化），而非揭示因果计算机制。
现有痛点：(1) 传统 path patching 在整个激活向量上干预，粒度太粗，产生噪声；(2) 对 decoder-only LLM 的翻译机制缺乏系统研究（之前集中在 encoder-decoder 架构）；(3) 不清楚哪些 attention head 做什么、MLP 如何参与翻译。
核心矛盾：需要在 LLM 高维激活空间中精确定位翻译相关的因果效应，同时过滤掉与翻译无关的激活维度。
本文要解决什么？ 系统性回答三个问题：哪些组件对翻译至关重要？这些组件表现出什么行为模式？微调这些组件能否提升翻译能力？
切入角度：线性表示假说——激活向量的线性子空间是最可解释的模型组件。通过对比正/负（有/无翻译逻辑的）数据对提取"翻译导向子空间"，仅在该子空间内做干预。
核心idea一句话：在翻译导向子空间内做 path patching 以精确定位翻译关键组件，发现三类功能化 attention head + 英语中心 MLP 处理的稀疏翻译电路。

方法详解¶

整体框架¶

三步系统框架：(1) 用 subspace-intervened path patching 检测翻译关键组件；(2) 分析关键 attention head 的功能角色和 MLP 的表示特征；(3) 基于发现设计靶向微调策略验证。

关键设计¶

Subspace-Intervened Path Patching:
做什么：在组件激活的"翻译导向子空间"内进行因果干预，而非整个激活向量
核心思路：用对比数据对（有翻译逻辑 \(X_+\) vs 无翻译逻辑 \(X_-\)）计算激活差异矩阵 \(\mathbf{M}_c\)，通过正交分解（优化目标 Eq.1）将其分为通用翻译导向子空间 \(\mathbf{S}_c\) 和数据集特定子空间 \(\mathbf{E}_c\)。干预时仅替换 \(\mathbf{S}_c\) 方向的分量：\(\tilde{\mathbf{a}}_c = W_cW_c^T\mathbf{a}_c(X_-) + (I-W_cW_c^T)\mathbf{a}_c(X_+)\)
设计动机：标准 path patching 替换整个激活向量会引入非翻译相关的干扰，subspace 投影精确隔离翻译信号
三类功能化 Attention Head:
做什么：通过 attention 权重分析将关键 head 分为 source head（关注源语言 token）、indicator head（关注翻译指令 token 如 "中文:"）、positional head（维持序列位置信息）
核心思路：分析每个关键 head 的 attention 分布——与源语言词、指令词、位置的对齐程度
设计动机：理解"为什么"这些 head 重要——它们各自提取翻译任务所需的不同类型信息
英语中心 MLP 处理:
做什么：证明 MLP 层将 attention head 提取的多语言特征整合为以英语为中心的中间表示
核心思路：测量 MLP 各层的隐藏表示与英语/源语言/目标语言 token 嵌入的相关性，发现中间层 MLP 的表示与英语嵌入高度相关
设计动机：验证了之前"LLM 用英语作为隐式计算枢纽"的假说，并从因果层面证实

验证：靶向微调¶

仅微调检测到的 64 个关键 attention head（<5% 参数），在词级和句级翻译上均达到或超过全参数微调的性能。

实验关键数据¶

关键组件统计（LLaMA2-7B）¶

指标	数值
翻译关键 attention head 占比	<5%
跨语言对 head 重叠率（同源/目标）	>70%
跨双向翻译 head 重叠率	>60%
关键 head 集中层区间	12-20 层 + 最后 2 层

靶向微调 vs 全参数微调¶

配置	参数量	翻译性能
全参数微调	100%	基线
仅微调 64 个 head	<5%	可比或更好
微调 top-5 共享 head	-	词级 -39% logits

Knockout 验证¶

操作	翻译准确率变化
逐步敲除关键 head	显著下降（从 90%→<30%）
逐步敲除随机 head	波动 <2%
敲除关键 MLP	类似显著下降

关键发现¶

翻译关键 head 具有高度跨语言迁移性——不同翻译方向共享大量关键 head
MLP 的翻译关键性集中在 15 层之后，最后一层 MLP 对目标 token logit 变化高达 50%
低资源语言（斯瓦希里语、孟加拉语、阿拉伯语）也表现出相同的稀疏性和迁移性

亮点与洞察¶

Subspace 投影 path patching：通过在翻译特定子空间内干预，大幅提升了因果分析的精度和可解释性，这种方法可推广到其他任务的机制分析
三类 head 的功能分化：清晰地将翻译过程分解为"提取源语言内容 → 识别翻译任务信号 → 维护位置信息"三个子功能
<5% 参数微调实验：将机制理解直接转化为实用的参数高效微调策略

局限性 / 可改进方向¶

主要在词级翻译上分析：虽然验证了句级迁移，但核心分析仍在简化的词级设置
仅分析 LLaMA2-7B：更大模型（70B+）的翻译机制可能有所不同
反事实模板设计：负样本构造（替换翻译指令词）可能无法完全隔离翻译信号

评分¶

新颖性: ⭐⭐⭐⭐ subspace path patching 和三类 head 分类是新贡献
实验充分度: ⭐⭐⭐⭐⭐ 6个翻译方向 + 低资源语言 + 句级验证 + 数学推理迁移 + knockout + 微调
写作质量: ⭐⭐⭐⭐ 分析层层递进，图表清晰
价值: ⭐⭐⭐⭐⭐ 对理解 LLM 翻译机制有重大推进，靶向微调策略有直接实用价值