Analyzing LLMs' Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations¶

会议: ACL 2025
arXiv: 2504.13816
代码: https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries
领域: LLM/NLP
关键词: 知识边界, 跨语言迁移, 内部表示探测, 幻觉缓解, 低资源语言, 子空间对齐

一句话总结¶

通过探测 LLM 内部表示，揭示知识边界认知在多语言间呈线性结构，提出 training-free 对齐方法实现跨语言知识边界感知迁移，并发现"弱到强泛化"现象。

研究背景与动机¶

知识边界与幻觉: LLM 在回答超出其知识范围的问题时容易产生幻觉，理解知识边界是缓解幻觉的关键前提
英语中心偏见: 现有知识边界研究几乎只关注英语，缺乏对多语言场景的系统分析
跨语言不一致: 不同语言间的知识边界感知可能不对齐，导致跨语言应用中出现不一致和不安全输出
低资源语言困境: 低资源语言的知识边界感知能力远弱于高资源语言，但反过来其表示空间更紧凑，蕴含迁移潜力
表示层面的证据: 此前研究表明 LLM 内部表示中已编码了 true/false 的线性可分结构，但尚未扩展到多语言跨语言场景
缺乏评测基准: 目前没有标准的多语言知识边界评测数据集，阻碍了系统性研究

方法详解¶

整体框架¶

本文从三个层面递进分析 LLM 的跨语言知识边界认知：(1) 探测分析——逐层探测多语言表示中的知识边界编码模式；(2) Training-free 对齐——利用发现的线性结构实现跨语言零训练迁移；(3) 微调增强——通过双语翻译对 SFT 进一步提升跨语言认知。同时构建了包含三种类型的多语言知识边界评测套件。

模块一：多语言知识边界探测 (§4)¶

对每种语言和每一层，训练线性分类器 \(f: \mathbb{R}^d \to \mathcal{C}\)，使用问题最后一个 token 的表示 \(\mathbf{E} \in \mathbb{R}^{n \times d}\) 作为输入。共训练 \(k \times m\) 个分类器（\(k\)=层数，\(m\)=语言数），每个 in-distribution 探针在所有其他语言上做 zero-shot 评估。

关键发现: - 知识边界认知编码在中间到中上层（如 Qwen2.5-7B 的第 19 层最优） - 底层存在显著的 ID/OOD 性能差距（语言特定的静态嵌入），中间层收敛到统一知识空间 - 低资源语言（如高棉语）展现最佳相对迁移性——其判别特征存在于高资源语言表示中，反之不然

模块二：Training-free 子空间对齐 (§5)¶

LDA 几何分析: 用三组标签（语言、领域×真假、二元真假）训练 LDA 分类器，投影后发现：(i) 语言以平行结构编码；(ii) 真假性以语言中性方式编码；(iii) true/false 可被近水平超平面分离。

Mean Shifting: 计算源/目标语言训练集的均值差：

\[\Delta\boldsymbol{\mu} = \boldsymbol{\mu}_{\text{in}} - \boldsymbol{\mu}_{\text{ood}}, \quad \mathbf{X}_{\text{shifted}}^{\text{test}} = \mathbf{X}_{\text{ood}}^{\text{test}} + \Delta\boldsymbol{\mu}\]

Linear Projection: 求解最小二乘问题 \(\mathbf{W} = \arg\min_{\mathbf{W}} \|\mathbf{X}_{\text{in}} - \mathbf{X}_{\text{ood}}^{\text{train}}\mathbf{W}\|_F^2\)，通过 SVD 伪逆得到 \(\mathbf{W} = \mathbf{X}_{\text{ood}}^{\text{train}+}\mathbf{X}_{\text{in}}\)，将目标语言表示投射到源语言子空间：\(\mathbf{X}_{\text{shifted}}^{\text{test}} = \mathbf{X}_{\text{ood}}^{\text{test}}\mathbf{W}\)。

弱到强泛化: 在低资源语言（高棉语）上训练的探针，对其他语言 post-projection 后的表示反而优于对高棉语本身的表现。原因是投影到低资源子空间起到去噪/正则化作用——英语投影到高棉语子空间后有效维度从 116 降至 87，participation ratio 从 26.26 降至 19.29。

模块三：基于微调的增强 (§6)¶

使用仅包含问题翻译对（无答案）的 SFT 数据微调 LLM（如高棉语→英语翻译对），一致性提升所有语言的知识边界探测性能。Qwen2.5-7B 最佳层平均准确率达 88%（+2.3%）。

自防御机制: 在低资源→英语翻译对上微调 Qwen2.5 时，模型的中文表示意外获得显著提升（中文是 Qwen 的主导语言之一）。假说是处理低资源语言中的不可回答问题，激活了与主语言关联的潜在安全机制。

评测数据集¶

数据集	语言数	类型	规模
FreshQAParallel	8 (en/zh/vi/th/id/ms/km/lo)	真/假前提问题对	9,600 测试
SeaRefuse	5 (en/zh/id/th/vi)	实体可答/不可答问题	64k 训练 + 6k 测试
TrueFalseMultiLang	8 (en/es/de/it/pt/fr/id/th)	真/假陈述句	48,680 测试

实验¶

表1: False-premise 提示对生成性能的影响¶

设置	en	zh	vi	th	km	id	ms	lo
Qwen2.5-7B-Inst Baseline	30.61	36.05	19.73	19.73	8.16	22.45	19.05	0.68
+ FP-Hinted	41.50	45.58	44.22	32.65	11.56	38.10	37.41	2.04
Qwen2.5-72B-Inst Baseline	58.50	60.54	61.90	55.10	33.33	59.18	55.78	31.29
+ FP-Hinted	72.11	70.75	68.03	67.35	44.90	72.79	73.47	38.10

→ 提示假前提后越南语提升最大（+24.49%），说明模型内部已编码知识边界但未在生成中充分利用。

表2: 子空间维度分析（英语 vs 高棉语投影）¶

指标	原始(km)	投影后(km)	原始(en)	投影后(en)
Effective Dim	103	97	116	87
Participation Ratio	15.93	18.07	26.26	19.29

→ 英语投影到高棉语子空间后维度显著降低、PR 趋向紧凑，证实低资源子空间的去噪效果。

关键实验发现¶

Linear Projection 几乎消除 ID-OOD 差距: 在所有模型（7B-72B）上，线性投影后的 OOD 性能接近 ID 性能，远优于 Mean Shifting
SFT 跨语言泛化: 仅在高棉语-英语翻译对上微调，即可提升所有 8 种语言的知识边界探测准确率
迁移方向性: 高→中、中→低的迁移链效果最佳（如 Qwen2.5-14B 上泰语最佳来自中文探针 88.31%，高棉语最佳来自马来语探针 88.15%）
非平行语料近似: Mean Shifting 甚至可用非平行语料计算语言均值，效果与平行语料相当

亮点¶

首个系统性多语言知识边界研究：填补了该领域从英语到多语言的重要空白
线性结构的发现及利用：知识边界在语言间呈线性可分的几何结构，使得 training-free 迁移成为可能
弱到强泛化现象：低资源语言子空间作为归纳偏置过滤噪声，理论解释新颖且有实践价值
自防御机制：微调非主导语言对竟能增强主导语言的安全表示，揭示了 LLM 内部多语言安全机制的关联性
完整评测套件：三种互补类型的数据集覆盖不同知识边界定义，构建过程严谨（人工标注+语言学家校验）

局限¶

仅分析了表示层面的知识边界感知，未探索生成过程中（尤其是 CoT 推理中）表示如何演变
线性探针的表达能力有限，非线性探针可能捕获更复杂的边界模式
实验语言以东南亚语系为主，对形态学差异大的语言（如阿拉伯语、芬兰语）的泛化性未验证
Linear Projection 需要平行语料，虽然数量要求不高（几百对），但对极低资源语言仍可能是瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统研究多语言知识边界，弱到强泛化和自防御机制发现新颖
技术深度: ⭐⭐⭐⭐ — 从探测到 training-free 到 SFT 三层递进，数学推导严谨
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖多模型家族/尺度(7B-72B)、8种语言、三种数据集类型、多种消融
实用价值: ⭐⭐⭐⭐ — 训练-free 方法可直接部署为幻觉检测信号，数据集和代码已开源