跳转至

Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models

会议: ACL 2025
arXiv: 2504.04264
代码: https://github.com/boschresearch/KLAR-CLC
领域: LLM/NLP
关键词: cross-lingual consistency, mechanistic interpretability, language transition, factual knowledge, multilingual LM

一句话总结

用机制可解释性方法解剖多语言 LLM 的跨语言事实不一致问题,发现模型在大多数层中以语言无关的概念空间处理知识,但在最后几层的"语言转换"过程中失败导致不一致,提出线性快捷方法绕过最后层以提升一致性和准确率。

研究背景与动机

  1. 领域现状:多语言 LLM 在不同语言中回答相同事实问题时常给出不一致的答案。
  2. 现有痛点:先前工作识别了不一致现象但未分析内部原因;可解释性研究主要关注正确预测的案例。
  3. 核心矛盾:模型在中间层已经"知道"正确答案(在概念空间中),但在转换到目标语言时出错——为什么?
  4. 本文要解决什么? 通过可解释性追踪信息流,定位跨语言事实不一致的内部原因。
  5. 切入角度:Logit Lens + 因果追踪,对比"一致正确"和"跨语言不一致"两种场景的内部机制差异。
  6. 核心idea一句话:跨语言不一致的根源在于最后几层的"语言转换"机制失败——模型在概念空间中知道正确答案,但无法正确翻译到目标语言。

方法详解

整体框架

构建 KLAR 数据集(17 语言 × 20 关系类型)-> 评估跨语言一致性 -> 用 Logit Lens 追踪各层表示 -> 对比一致和不一致案例 -> 发现语言转换失败 -> 提出线性快捷方法。

关键设计

  1. KLAR 数据集
  2. 17 种语言,20 种关系类型
  3. 为自回归模型设计的知识探测格式
  4. 设计动机:比现有数据集覆盖更多语言和关系

  5. Logit Lens 分析

  6. 将各层隐状态投影到词表空间,观察"当前预测"随层变化
  7. 发现:中间层预测接近英语正确答案(概念空间),最后层转换到目标语言
  8. 设计动机:揭示模型内部的语言处理层次

  9. 线性快捷方法

  10. 学习一个线性映射,将中间层(概念空间)的表示直接映射到目标语言预测
  11. 绕过最后几层(语言转换失败层)
  12. 设计动机:如果概念空间已有正确答案,直接跳转可避免转换错误

实验关键数据

主实验 — LLaMA2 跨语言一致性

语言 准确率 与英语一致率
英语 ~75% 100% (基准)
德语 ~55% ~65%
中文 ~45% ~55%
阿拉伯语 ~35% ~45%

线性快捷方法效果

配置 准确率 一致率
原始模型 基线 基线
线性快捷 +5-10% +8-12%

Logit Lens 层级分析

层级 表示空间 说明
前 1/3 语言相关 处理输入语言的语法/词汇
中间 1/3 语言无关 概念空间,存储事实知识
最后 1/3 语言转换 从概念空间到目标语言

关键发现

  • 概念空间在中间层已有正确答案——即使最终预测错误
  • 语言转换是失败的关键环节:正确知识无法正确映射到目标语言
  • 低资源语言转换失败率更高:与训练数据分布一致
  • 线性快捷方法有效:绕过失败的转换层提升了准确率和一致性
  • LLaMA2 的概念空间偏向英语:反映了其英语中心训练

亮点与洞察

  • 首次定位跨语言不一致的具体失败机制——"语言转换层"这一概念为理解多语言 LLM 提供了新视角
  • 线性快捷方法轻量且有效,不需要重训练模型
  • 概念空间 / 语言转换的二分法与认知科学中的"内部语言"假说一致

局限性 / 可改进方向

  • 线性快捷是后处理方法,不解决根本问题
  • 仅分析了 LLaMA2 和 Bloom
  • 改进方向:改善最后层的语言转换能力、多语言感知的层级训练

相关工作与启发

  • vs Wendler et al. (2024):他们分析正确预测的多语言机制,本文关注失败案例
  • vs CogSteer (Wang et al.):CogSteer 基于认知发现选择最优干预层,本文发现最后层是失败点

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次机制级别解释跨语言不一致
  • 实验充分度: ⭐⭐⭐⭐ 17语言+层级分析+快捷方法
  • 写作质量: ⭐⭐⭐⭐⭐ 可视化和分析极其清晰
  • 价值: ⭐⭐⭐⭐⭐ 对多语言LLM研究有深远影响