Separating Tongue from Thought: Activation Patching Reveals Language-Agnostic Concept Representations in Transformers¶

会议: ACL 2025
arXiv: 2411.08745
代码: https://github.com/Butanium/llm-lang-agnostic
领域: 可解释性
关键词: 多语言表示, 语言无关概念, 激活修补, 机械可解释性, Transformer

一句话总结¶

本文通过激活修补（activation patching）方法对翻译任务中的LLM潜在表示进行因果分析，发现输出语言在早期层编码而概念在后期层编码，证明LLM内部存在语言无关的概念表示——跨语言平均概念表示不仅可用且能提升翻译性能。

领域现状：多语言LLM虽然主要在英文数据上训练，但在多种语言上表现出色，引发了关于是否存在通用概念表示的基本问题。
现有痛点：已有观察性证据（embedding相似度、logit lens等）表明共享语义空间的存在，但缺乏因果分析证明LLM实际在生成中利用了语言无关表示。
核心矛盾：两个竞争假设——H1:语言和概念独立表示（语言无关）vs H2:语言和概念纠缠在一起（语言特定）。
本文目标：通过因果干预方法判断H1还是H2更准确。
切入角度：如果概念是语言无关的(H1)，那么跨语言平均的概念表示仍应可用；如果是纠缠的(H2)，平均表示将是无意义的混合物。
核心idea：在翻译任务中用激活修补交换概念和语言信息 + 跨语言平均概念表示的可用性测试。

构建多语言翻译提示对 → 从源提示提取特定层的残差流激活 → 修补到目标提示的前向传播中 → 观察输出变化 → 确定语言和概念的编码层级 → 跨语言平均概念表示测试。

层级分离发现: 修补0-15层改变概念但保持语言不变；修补16-31层改变语言但保持概念不变。说明模型先解析输出语言，后解析待翻译概念。
跨语言平均表示测试: 将同一概念在多种语言中的潜在表示取平均，用此平均表示替换翻译任务中的概念表示。结果发现翻译性能不降反升——支持H1。
多模型泛化: 在Llama 2 7B/70B、Llama 3 8B、Mistral 7B、Qwen 1.5 7B、Aya 23 8B、Gemma 2 2B上验证，发现一致。

无需训练，纯分析方法。使用激活修补进行因果干预。

模型	概念修补成功率	语言修补成功率	分离层级
Llama 2 7B	87%	82%	15/31层
Llama 2 70B	92%	89%	18/79层
Llama 3 8B	89%	85%	14/31层
Mistral 7B	85%	80%	13/31层
Qwen 1.5 7B	86%	83%	14/31层
Aya 23 8B	84%	81%	15/31层
Gemma 2 2B	81%	78%	10/25层