Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models¶
会议: ACL 2025
arXiv: 2504.04264
代码: https://github.com/boschresearch/KLAR-CLC
领域: LLM/NLP
关键词: cross-lingual consistency, mechanistic interpretability, language transition, factual knowledge, multilingual LM
一句话总结¶
用机制可解释性方法解剖多语言 LLM 的跨语言事实不一致问题,发现模型在大多数层中以语言无关的概念空间处理知识,但在最后几层的"语言转换"过程中失败导致不一致,提出线性快捷方法绕过最后层以提升一致性和准确率。
研究背景与动机¶
- 领域现状:多语言 LLM 在不同语言中回答相同事实问题时常给出不一致的答案。
- 现有痛点:先前工作识别了不一致现象但未分析内部原因;可解释性研究主要关注正确预测的案例。
- 核心矛盾:模型在中间层已经"知道"正确答案(在概念空间中),但在转换到目标语言时出错——为什么?
- 本文要解决什么? 通过可解释性追踪信息流,定位跨语言事实不一致的内部原因。
- 切入角度:Logit Lens + 因果追踪,对比"一致正确"和"跨语言不一致"两种场景的内部机制差异。
- 核心idea一句话:跨语言不一致的根源在于最后几层的"语言转换"机制失败——模型在概念空间中知道正确答案,但无法正确翻译到目标语言。
方法详解¶
整体框架¶
构建 KLAR 数据集(17 语言 × 20 关系类型)-> 评估跨语言一致性 -> 用 Logit Lens 追踪各层表示 -> 对比一致和不一致案例 -> 发现语言转换失败 -> 提出线性快捷方法。
关键设计¶
- KLAR 数据集
- 17 种语言,20 种关系类型
- 为自回归模型设计的知识探测格式
-
设计动机:比现有数据集覆盖更多语言和关系
-
Logit Lens 分析
- 将各层隐状态投影到词表空间,观察"当前预测"随层变化
- 发现:中间层预测接近英语正确答案(概念空间),最后层转换到目标语言
-
设计动机:揭示模型内部的语言处理层次
-
线性快捷方法
- 学习一个线性映射,将中间层(概念空间)的表示直接映射到目标语言预测
- 绕过最后几层(语言转换失败层)
- 设计动机:如果概念空间已有正确答案,直接跳转可避免转换错误
实验关键数据¶
主实验 — LLaMA2 跨语言一致性¶
| 语言 | 准确率 | 与英语一致率 |
|---|---|---|
| 英语 | ~75% | 100% (基准) |
| 德语 | ~55% | ~65% |
| 中文 | ~45% | ~55% |
| 阿拉伯语 | ~35% | ~45% |
线性快捷方法效果¶
| 配置 | 准确率 | 一致率 |
|---|---|---|
| 原始模型 | 基线 | 基线 |
| 线性快捷 | +5-10% | +8-12% |
Logit Lens 层级分析¶
| 层级 | 表示空间 | 说明 |
|---|---|---|
| 前 1/3 | 语言相关 | 处理输入语言的语法/词汇 |
| 中间 1/3 | 语言无关 | 概念空间,存储事实知识 |
| 最后 1/3 | 语言转换 | 从概念空间到目标语言 |
关键发现¶
- 概念空间在中间层已有正确答案——即使最终预测错误
- 语言转换是失败的关键环节:正确知识无法正确映射到目标语言
- 低资源语言转换失败率更高:与训练数据分布一致
- 线性快捷方法有效:绕过失败的转换层提升了准确率和一致性
- LLaMA2 的概念空间偏向英语:反映了其英语中心训练
亮点与洞察¶
- 首次定位跨语言不一致的具体失败机制——"语言转换层"这一概念为理解多语言 LLM 提供了新视角
- 线性快捷方法轻量且有效,不需要重训练模型
- 概念空间 / 语言转换的二分法与认知科学中的"内部语言"假说一致
局限性 / 可改进方向¶
- 线性快捷是后处理方法,不解决根本问题
- 仅分析了 LLaMA2 和 Bloom
- 改进方向:改善最后层的语言转换能力、多语言感知的层级训练
相关工作与启发¶
- vs Wendler et al. (2024):他们分析正确预测的多语言机制,本文关注失败案例
- vs CogSteer (Wang et al.):CogSteer 基于认知发现选择最优干预层,本文发现最后层是失败点
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次机制级别解释跨语言不一致
- 实验充分度: ⭐⭐⭐⭐ 17语言+层级分析+快捷方法
- 写作质量: ⭐⭐⭐⭐⭐ 可视化和分析极其清晰
- 价值: ⭐⭐⭐⭐⭐ 对多语言LLM研究有深远影响