Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models¶

会议: ACL 2025
arXiv: 2504.04264
代码: https://github.com/boschresearch/KLAR-CLC
领域: LLM/NLP
关键词: cross-lingual consistency, mechanistic interpretability, language transition, factual knowledge, multilingual LM

一句话总结¶

用机制可解释性方法解剖多语言 LLM 的跨语言事实不一致问题，发现模型在大多数层中以语言无关的概念空间处理知识，但在最后几层的"语言转换"过程中失败导致不一致，提出线性快捷方法绕过最后层以提升一致性和准确率。

研究背景与动机¶

领域现状：多语言 LLM 在不同语言中回答相同事实问题时常给出不一致的答案。
现有痛点：先前工作识别了不一致现象但未分析内部原因；可解释性研究主要关注正确预测的案例。
核心矛盾：模型在中间层已经"知道"正确答案（在概念空间中），但在转换到目标语言时出错——为什么？
本文要解决什么？ 通过可解释性追踪信息流，定位跨语言事实不一致的内部原因。
切入角度：Logit Lens + 因果追踪，对比"一致正确"和"跨语言不一致"两种场景的内部机制差异。
核心idea一句话：跨语言不一致的根源在于最后几层的"语言转换"机制失败——模型在概念空间中知道正确答案，但无法正确翻译到目标语言。

方法详解¶

整体框架¶

构建 KLAR 数据集（17 语言 × 20 关系类型）-> 评估跨语言一致性 -> 用 Logit Lens 追踪各层表示 -> 对比一致和不一致案例 -> 发现语言转换失败 -> 提出线性快捷方法。

关键设计¶

KLAR 数据集
17 种语言，20 种关系类型
为自回归模型设计的知识探测格式
设计动机：比现有数据集覆盖更多语言和关系
Logit Lens 分析
将各层隐状态投影到词表空间，观察"当前预测"随层变化
发现：中间层预测接近英语正确答案（概念空间），最后层转换到目标语言
设计动机：揭示模型内部的语言处理层次
线性快捷方法
学习一个线性映射，将中间层（概念空间）的表示直接映射到目标语言预测
绕过最后几层（语言转换失败层）
设计动机：如果概念空间已有正确答案，直接跳转可避免转换错误

实验关键数据¶

主实验 — LLaMA2 跨语言一致性¶

语言	准确率	与英语一致率
英语	~75%	100% (基准)
德语	~55%	~65%
中文	~45%	~55%
阿拉伯语	~35%	~45%

线性快捷方法效果¶

配置	准确率	一致率
原始模型	基线	基线
线性快捷	+5-10%	+8-12%

Logit Lens 层级分析¶

层级	表示空间	说明
前 1/3	语言相关	处理输入语言的语法/词汇
中间 1/3	语言无关	概念空间，存储事实知识
最后 1/3	语言转换	从概念空间到目标语言

关键发现¶

概念空间在中间层已有正确答案——即使最终预测错误
语言转换是失败的关键环节：正确知识无法正确映射到目标语言
低资源语言转换失败率更高：与训练数据分布一致
线性快捷方法有效：绕过失败的转换层提升了准确率和一致性
LLaMA2 的概念空间偏向英语：反映了其英语中心训练

亮点与洞察¶

首次定位跨语言不一致的具体失败机制——"语言转换层"这一概念为理解多语言 LLM 提供了新视角
线性快捷方法轻量且有效，不需要重训练模型
概念空间 / 语言转换的二分法与认知科学中的"内部语言"假说一致

局限性 / 可改进方向¶

线性快捷是后处理方法，不解决根本问题
仅分析了 LLaMA2 和 Bloom
改进方向：改善最后层的语言转换能力、多语言感知的层级训练

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次机制级别解释跨语言不一致
实验充分度: ⭐⭐⭐⭐ 17语言+层级分析+快捷方法
写作质量: ⭐⭐⭐⭐⭐ 可视化和分析极其清晰
价值: ⭐⭐⭐⭐⭐ 对多语言LLM研究有深远影响