跳转至

Analyzing LLMs' Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations

会议: ACL 2025
arXiv: 2504.13816
代码: https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries
领域: LLM/NLP
关键词: 知识边界, 跨语言迁移, 内部表示探测, 幻觉缓解, 低资源语言, 子空间对齐

一句话总结

通过探测 LLM 内部表示,揭示知识边界认知在多语言间呈线性结构,提出 training-free 对齐方法实现跨语言知识边界感知迁移,并发现"弱到强泛化"现象。

研究背景与动机

  1. 知识边界与幻觉: LLM 在回答超出其知识范围的问题时容易产生幻觉,理解知识边界是缓解幻觉的关键前提
  2. 英语中心偏见: 现有知识边界研究几乎只关注英语,缺乏对多语言场景的系统分析
  3. 跨语言不一致: 不同语言间的知识边界感知可能不对齐,导致跨语言应用中出现不一致和不安全输出
  4. 低资源语言困境: 低资源语言的知识边界感知能力远弱于高资源语言,但反过来其表示空间更紧凑,蕴含迁移潜力
  5. 表示层面的证据: 此前研究表明 LLM 内部表示中已编码了 true/false 的线性可分结构,但尚未扩展到多语言跨语言场景
  6. 缺乏评测基准: 目前没有标准的多语言知识边界评测数据集,阻碍了系统性研究

方法详解

整体框架

本文从三个层面递进分析 LLM 的跨语言知识边界认知:(1) 探测分析——逐层探测多语言表示中的知识边界编码模式;(2) Training-free 对齐——利用发现的线性结构实现跨语言零训练迁移;(3) 微调增强——通过双语翻译对 SFT 进一步提升跨语言认知。同时构建了包含三种类型的多语言知识边界评测套件。

模块一:多语言知识边界探测 (§4)

对每种语言和每一层,训练线性分类器 \(f: \mathbb{R}^d \to \mathcal{C}\),使用问题最后一个 token 的表示 \(\mathbf{E} \in \mathbb{R}^{n \times d}\) 作为输入。共训练 \(k \times m\) 个分类器(\(k\)=层数,\(m\)=语言数),每个 in-distribution 探针在所有其他语言上做 zero-shot 评估。

关键发现: - 知识边界认知编码在中间到中上层(如 Qwen2.5-7B 的第 19 层最优) - 底层存在显著的 ID/OOD 性能差距(语言特定的静态嵌入),中间层收敛到统一知识空间 - 低资源语言(如高棉语)展现最佳相对迁移性——其判别特征存在于高资源语言表示中,反之不然

模块二:Training-free 子空间对齐 (§5)

LDA 几何分析: 用三组标签(语言、领域×真假、二元真假)训练 LDA 分类器,投影后发现:(i) 语言以平行结构编码;(ii) 真假性以语言中性方式编码;(iii) true/false 可被近水平超平面分离。

Mean Shifting: 计算源/目标语言训练集的均值差:

\[\Delta\boldsymbol{\mu} = \boldsymbol{\mu}_{\text{in}} - \boldsymbol{\mu}_{\text{ood}}, \quad \mathbf{X}_{\text{shifted}}^{\text{test}} = \mathbf{X}_{\text{ood}}^{\text{test}} + \Delta\boldsymbol{\mu}\]

Linear Projection: 求解最小二乘问题 \(\mathbf{W} = \arg\min_{\mathbf{W}} \|\mathbf{X}_{\text{in}} - \mathbf{X}_{\text{ood}}^{\text{train}}\mathbf{W}\|_F^2\),通过 SVD 伪逆得到 \(\mathbf{W} = \mathbf{X}_{\text{ood}}^{\text{train}+}\mathbf{X}_{\text{in}}\),将目标语言表示投射到源语言子空间:\(\mathbf{X}_{\text{shifted}}^{\text{test}} = \mathbf{X}_{\text{ood}}^{\text{test}}\mathbf{W}\)

弱到强泛化: 在低资源语言(高棉语)上训练的探针,对其他语言 post-projection 后的表示反而优于对高棉语本身的表现。原因是投影到低资源子空间起到去噪/正则化作用——英语投影到高棉语子空间后有效维度从 116 降至 87,participation ratio 从 26.26 降至 19.29。

模块三:基于微调的增强 (§6)

使用仅包含问题翻译对(无答案)的 SFT 数据微调 LLM(如高棉语→英语翻译对),一致性提升所有语言的知识边界探测性能。Qwen2.5-7B 最佳层平均准确率达 88%(+2.3%)。

自防御机制: 在低资源→英语翻译对上微调 Qwen2.5 时,模型的中文表示意外获得显著提升(中文是 Qwen 的主导语言之一)。假说是处理低资源语言中的不可回答问题,激活了与主语言关联的潜在安全机制。

评测数据集

数据集 语言数 类型 规模
FreshQAParallel 8 (en/zh/vi/th/id/ms/km/lo) 真/假前提问题对 9,600 测试
SeaRefuse 5 (en/zh/id/th/vi) 实体可答/不可答问题 64k 训练 + 6k 测试
TrueFalseMultiLang 8 (en/es/de/it/pt/fr/id/th) 真/假陈述句 48,680 测试

实验

表1: False-premise 提示对生成性能的影响

设置 en zh vi th km id ms lo
Qwen2.5-7B-Inst Baseline 30.61 36.05 19.73 19.73 8.16 22.45 19.05 0.68
+ FP-Hinted 41.50 45.58 44.22 32.65 11.56 38.10 37.41 2.04
Qwen2.5-72B-Inst Baseline 58.50 60.54 61.90 55.10 33.33 59.18 55.78 31.29
+ FP-Hinted 72.11 70.75 68.03 67.35 44.90 72.79 73.47 38.10

→ 提示假前提后越南语提升最大(+24.49%),说明模型内部已编码知识边界但未在生成中充分利用。

表2: 子空间维度分析(英语 vs 高棉语投影)

指标 原始(km) 投影后(km) 原始(en) 投影后(en)
Effective Dim 103 97 116 87
Participation Ratio 15.93 18.07 26.26 19.29

→ 英语投影到高棉语子空间后维度显著降低、PR 趋向紧凑,证实低资源子空间的去噪效果。

关键实验发现

  1. Linear Projection 几乎消除 ID-OOD 差距: 在所有模型(7B-72B)上,线性投影后的 OOD 性能接近 ID 性能,远优于 Mean Shifting
  2. SFT 跨语言泛化: 仅在高棉语-英语翻译对上微调,即可提升所有 8 种语言的知识边界探测准确率
  3. 迁移方向性: 高→中、中→低的迁移链效果最佳(如 Qwen2.5-14B 上泰语最佳来自中文探针 88.31%,高棉语最佳来自马来语探针 88.15%)
  4. 非平行语料近似: Mean Shifting 甚至可用非平行语料计算语言均值,效果与平行语料相当

亮点

  • 首个系统性多语言知识边界研究:填补了该领域从英语到多语言的重要空白
  • 线性结构的发现及利用:知识边界在语言间呈线性可分的几何结构,使得 training-free 迁移成为可能
  • 弱到强泛化现象:低资源语言子空间作为归纳偏置过滤噪声,理论解释新颖且有实践价值
  • 自防御机制:微调非主导语言对竟能增强主导语言的安全表示,揭示了 LLM 内部多语言安全机制的关联性
  • 完整评测套件:三种互补类型的数据集覆盖不同知识边界定义,构建过程严谨(人工标注+语言学家校验)

局限

  1. 仅分析了表示层面的知识边界感知,未探索生成过程中(尤其是 CoT 推理中)表示如何演变
  2. 线性探针的表达能力有限,非线性探针可能捕获更复杂的边界模式
  3. 实验语言以东南亚语系为主,对形态学差异大的语言(如阿拉伯语、芬兰语)的泛化性未验证
  4. Linear Projection 需要平行语料,虽然数量要求不高(几百对),但对极低资源语言仍可能是瓶颈

相关工作

  • 知识边界: Azaria & Mitchell (2023) 提出 LLM 内部状态"知道自己在说谎";Marks & Tegmark (2024) 发现 true/false 表示的线性几何结构;Bürger et al. (2024) 仅简单展示英→德迁移
  • 多语言 LLM: Zhao et al. (2024) 的三阶段假说(源语言→锚语言思考→源语言生成);Tang et al. (2024) 发现语言特定神经元;Zhang et al. (2024b) 发现问题翻译微调可提升多语言性能
  • 跨语言对齐: Chang et al. (2022) 发现多语言编码器模型中语言差异主要编码在子空间均值中;Xu et al. (2023) 探索知识跨语言投射

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次系统研究多语言知识边界,弱到强泛化和自防御机制发现新颖
  • 技术深度: ⭐⭐⭐⭐ — 从探测到 training-free 到 SFT 三层递进,数学推导严谨
  • 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖多模型家族/尺度(7B-72B)、8种语言、三种数据集类型、多种消融
  • 实用价值: ⭐⭐⭐⭐ — 训练-free 方法可直接部署为幻觉检测信号,数据集和代码已开源