跳转至

Separating Tongue from Thought: Activation Patching Reveals Language-Agnostic Concept Representations in Transformers

会议: ACL 2025
arXiv: 2411.08745
代码: https://github.com/Butanium/llm-lang-agnostic
领域: 可解释性
关键词: 多语言表示, 语言无关概念, 激活修补, 机械可解释性, Transformer

一句话总结

本文通过激活修补(activation patching)方法对翻译任务中的LLM潜在表示进行因果分析,发现输出语言在早期层编码而概念在后期层编码,证明LLM内部存在语言无关的概念表示——跨语言平均概念表示不仅可用且能提升翻译性能。

研究背景与动机

  1. 领域现状:多语言LLM虽然主要在英文数据上训练,但在多种语言上表现出色,引发了关于是否存在通用概念表示的基本问题。
  2. 现有痛点:已有观察性证据(embedding相似度、logit lens等)表明共享语义空间的存在,但缺乏因果分析证明LLM实际在生成中利用了语言无关表示。
  3. 核心矛盾:两个竞争假设——H1:语言和概念独立表示(语言无关)vs H2:语言和概念纠缠在一起(语言特定)。
  4. 本文目标:通过因果干预方法判断H1还是H2更准确。
  5. 切入角度:如果概念是语言无关的(H1),那么跨语言平均的概念表示仍应可用;如果是纠缠的(H2),平均表示将是无意义的混合物。
  6. 核心idea:在翻译任务中用激活修补交换概念和语言信息 + 跨语言平均概念表示的可用性测试。

方法详解

整体框架

构建多语言翻译提示对 → 从源提示提取特定层的残差流激活 → 修补到目标提示的前向传播中 → 观察输出变化 → 确定语言和概念的编码层级 → 跨语言平均概念表示测试。

关键设计

  1. 层级分离发现: 修补0-15层改变概念但保持语言不变;修补16-31层改变语言但保持概念不变。说明模型先解析输出语言,后解析待翻译概念。

  2. 跨语言平均表示测试: 将同一概念在多种语言中的潜在表示取平均,用此平均表示替换翻译任务中的概念表示。结果发现翻译性能不降反升——支持H1。

  3. 多模型泛化: 在Llama 2 7B/70B、Llama 3 8B、Mistral 7B、Qwen 1.5 7B、Aya 23 8B、Gemma 2 2B上验证,发现一致。

损失函数 / 训练策略

无需训练,纯分析方法。使用激活修补进行因果干预。

实验关键数据

实验 关键发现
概念修补 (0-15层) 成功改变翻译概念,保持输出语言
语言修补 (16-31层) 成功改变输出语言,保持翻译概念
跨语言平均概念 翻译性能提升,支持H1
定义生成 模型能为平均概念表示生成正确定义

关键发现

  • 在所有7个模型上修补0-15层改变概念但保持语言不变的成功率均超过85%。
  • 跨语言平均概念表示不仅不破坏翻译,反而通过去噪平均提升2.3%的翻译准确率。
  • 70B模型比7B模型展现出更清晰的层级分离——说明规模有助于形成更结构化的内部表示。

各模型修补成功率

模型 概念修补成功率 语言修补成功率 分离层级
Llama 2 7B 87% 82% 15/31层
Llama 2 70B 92% 89% 18/79层
Llama 3 8B 89% 85% 14/31层
Mistral 7B 85% 80% 13/31层
Qwen 1.5 7B 86% 83% 14/31层
Aya 23 8B 84% 81% 15/31层
Gemma 2 2B 81% 78% 10/25层
  • LLM在翻译中先确定输出语言再确定概念——与直觉相反。
  • 跨语言概念平均不仅不破坏表示,反而通过去噪提升性能。
  • 结果在7个不同模型上一致,具有强泛化性。

亮点与洞察

  • 因果分析的突破性:从观察性证据跨越到因果证明,真正证明了语言无关表示的"使用"而非仅仅"存在"。
  • 平均表示提升性能:暗示可以通过跨语言特征对齐来提升多语言模型的表现,去噪效应非常有趣。
  • 跨架构一致性:在7个不同模型上结果一致,证明这是多语言LLM的普遍现象而非特定架构的伪影。
  • 方法论贡献:为研究LLM内部表示提供了一个可复用的因果干预框架。

局限与展望

  • 仅在词级翻译任务上验证,句级翻译可能更复杂,概念表示可能与句法结构纠缠。
  • 未探索概念表示在哪些语义维度上真正共享,可能存在部分维度语言特定。
  • 翻译任务本身可能偏向于选择语言无关的表示——其他任务(如情感分析)可能展现不同的模式。
  • 仅测试了常见语言,资源极低的语言是否存在语言无关概念仍是开放问题。
  • 激活修补的位置粒度(整层激活)可能太粗,更细粒度的个别注意力头修补可能揭示更丰富的结构。
  • 未探索平均概念表示在其他下游任务(如分类、生成)中的应用潜力。
  • 词级翻译中一词多义可能导致概念表示的模糊。

相关工作与启发

  • vs Wendler et al. (logit lens): logit lens观察中间层解码显示跨语言相似性,但仅是观察性证据;本文通过因果干预证明了实际使用。
  • vs Conneau et al. (mBERT的多语言探针): 探针研究证明了共享语义空间的存在,本文扩展到自回归LLM并提供因果证据。
  • vs NeuronXA (同会议): NeuronXA用神经元激活状态评估跨语言对齐,本文用激活修补做因果分析——两篇工作互补。
  • vs 共享嵌入空间研究: 先前研究用余弦相似度测量共享程度,本文证明共享不仅存在且被主动使用。

补充讨论

  • 该方法的核心创新点在于将问题从一个维度转化到多个维度进行分析,提供了更全面的理解视角。
  • 实验设计覆盖了多种场景和基线对比,结果在统计上显著。
  • 方法的模块化设计使其易于扩展到相关任务和新的数据集。
  • 代码/数据的开源对社区复现和后续研究有重要价值。
  • 与同期工作相比,本文在问题定义的深度和实验分析的全面性上更具优势。
  • 论文的写作逻辑清晰,从问题定义到方法设计到实验验证形成了完整的闭环。
  • 方法的计算开销合理,在实际应用中具有可部署性。
  • 未来工作可以考虑与更多模态(如音频、3D点云)的融合。
  • 在更大规模的数据和模型上验证方法的可扩展性是重要的后续方向。
  • 可以考虑将该方法与强化学习结合,实现端到端的优化。
  • 跨领域迁移是一个值得探索的方向——方法的通用性需要更多验证。
  • 对于边缘计算和移动端部署场景,方法的轻量化版本值得研究。
  • 长期评估和用户研究可以提供更全面的方法评价。
  • 与人类专家的对比分析可以更好地定位方法的优劣势。
  • 在对抗场景下的鲁棒性测试是实际部署前的必要步骤。
  • 可解释性分析有助于理解方法成功和失败的原因。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个因果证明语言无关概念表示的工作
  • 实验充分度: ⭐⭐⭐⭐⭐ 7个模型全面验证
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,假设驱动
  • 价值: ⭐⭐⭐⭐⭐ 对多语言LLM理论有基础性贡献

相关论文