Analyzing LLMs' Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations¶
会议: ACL 2025
arXiv: 2504.13816
代码: https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries
领域: LLM/NLP
关键词: 知识边界, 跨语言迁移, 内部表示探测, 幻觉缓解, 低资源语言, 子空间对齐
一句话总结¶
通过探测 LLM 内部表示,揭示知识边界认知在多语言间呈线性结构,提出 training-free 对齐方法实现跨语言知识边界感知迁移,并发现"弱到强泛化"现象。
研究背景与动机¶
- 知识边界与幻觉: LLM 在回答超出其知识范围的问题时容易产生幻觉,理解知识边界是缓解幻觉的关键前提
- 英语中心偏见: 现有知识边界研究几乎只关注英语,缺乏对多语言场景的系统分析
- 跨语言不一致: 不同语言间的知识边界感知可能不对齐,导致跨语言应用中出现不一致和不安全输出
- 低资源语言困境: 低资源语言的知识边界感知能力远弱于高资源语言,但反过来其表示空间更紧凑,蕴含迁移潜力
- 表示层面的证据: 此前研究表明 LLM 内部表示中已编码了 true/false 的线性可分结构,但尚未扩展到多语言跨语言场景
- 缺乏评测基准: 目前没有标准的多语言知识边界评测数据集,阻碍了系统性研究
方法详解¶
整体框架¶
本文从三个层面递进分析 LLM 的跨语言知识边界认知:(1) 探测分析——逐层探测多语言表示中的知识边界编码模式;(2) Training-free 对齐——利用发现的线性结构实现跨语言零训练迁移;(3) 微调增强——通过双语翻译对 SFT 进一步提升跨语言认知。同时构建了包含三种类型的多语言知识边界评测套件。
模块一:多语言知识边界探测 (§4)¶
对每种语言和每一层,训练线性分类器 \(f: \mathbb{R}^d \to \mathcal{C}\),使用问题最后一个 token 的表示 \(\mathbf{E} \in \mathbb{R}^{n \times d}\) 作为输入。共训练 \(k \times m\) 个分类器(\(k\)=层数,\(m\)=语言数),每个 in-distribution 探针在所有其他语言上做 zero-shot 评估。
关键发现: - 知识边界认知编码在中间到中上层(如 Qwen2.5-7B 的第 19 层最优) - 底层存在显著的 ID/OOD 性能差距(语言特定的静态嵌入),中间层收敛到统一知识空间 - 低资源语言(如高棉语)展现最佳相对迁移性——其判别特征存在于高资源语言表示中,反之不然
模块二:Training-free 子空间对齐 (§5)¶
LDA 几何分析: 用三组标签(语言、领域×真假、二元真假)训练 LDA 分类器,投影后发现:(i) 语言以平行结构编码;(ii) 真假性以语言中性方式编码;(iii) true/false 可被近水平超平面分离。
Mean Shifting: 计算源/目标语言训练集的均值差:
Linear Projection: 求解最小二乘问题 \(\mathbf{W} = \arg\min_{\mathbf{W}} \|\mathbf{X}_{\text{in}} - \mathbf{X}_{\text{ood}}^{\text{train}}\mathbf{W}\|_F^2\),通过 SVD 伪逆得到 \(\mathbf{W} = \mathbf{X}_{\text{ood}}^{\text{train}+}\mathbf{X}_{\text{in}}\),将目标语言表示投射到源语言子空间:\(\mathbf{X}_{\text{shifted}}^{\text{test}} = \mathbf{X}_{\text{ood}}^{\text{test}}\mathbf{W}\)。
弱到强泛化: 在低资源语言(高棉语)上训练的探针,对其他语言 post-projection 后的表示反而优于对高棉语本身的表现。原因是投影到低资源子空间起到去噪/正则化作用——英语投影到高棉语子空间后有效维度从 116 降至 87,participation ratio 从 26.26 降至 19.29。
模块三:基于微调的增强 (§6)¶
使用仅包含问题翻译对(无答案)的 SFT 数据微调 LLM(如高棉语→英语翻译对),一致性提升所有语言的知识边界探测性能。Qwen2.5-7B 最佳层平均准确率达 88%(+2.3%)。
自防御机制: 在低资源→英语翻译对上微调 Qwen2.5 时,模型的中文表示意外获得显著提升(中文是 Qwen 的主导语言之一)。假说是处理低资源语言中的不可回答问题,激活了与主语言关联的潜在安全机制。
评测数据集¶
| 数据集 | 语言数 | 类型 | 规模 |
|---|---|---|---|
| FreshQAParallel | 8 (en/zh/vi/th/id/ms/km/lo) | 真/假前提问题对 | 9,600 测试 |
| SeaRefuse | 5 (en/zh/id/th/vi) | 实体可答/不可答问题 | 64k 训练 + 6k 测试 |
| TrueFalseMultiLang | 8 (en/es/de/it/pt/fr/id/th) | 真/假陈述句 | 48,680 测试 |
实验¶
表1: False-premise 提示对生成性能的影响¶
| 设置 | en | zh | vi | th | km | id | ms | lo |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-7B-Inst Baseline | 30.61 | 36.05 | 19.73 | 19.73 | 8.16 | 22.45 | 19.05 | 0.68 |
| + FP-Hinted | 41.50 | 45.58 | 44.22 | 32.65 | 11.56 | 38.10 | 37.41 | 2.04 |
| Qwen2.5-72B-Inst Baseline | 58.50 | 60.54 | 61.90 | 55.10 | 33.33 | 59.18 | 55.78 | 31.29 |
| + FP-Hinted | 72.11 | 70.75 | 68.03 | 67.35 | 44.90 | 72.79 | 73.47 | 38.10 |
→ 提示假前提后越南语提升最大(+24.49%),说明模型内部已编码知识边界但未在生成中充分利用。
表2: 子空间维度分析(英语 vs 高棉语投影)¶
| 指标 | 原始(km) | 投影后(km) | 原始(en) | 投影后(en) |
|---|---|---|---|---|
| Effective Dim | 103 | 97 | 116 | 87 |
| Participation Ratio | 15.93 | 18.07 | 26.26 | 19.29 |
→ 英语投影到高棉语子空间后维度显著降低、PR 趋向紧凑,证实低资源子空间的去噪效果。
关键实验发现¶
- Linear Projection 几乎消除 ID-OOD 差距: 在所有模型(7B-72B)上,线性投影后的 OOD 性能接近 ID 性能,远优于 Mean Shifting
- SFT 跨语言泛化: 仅在高棉语-英语翻译对上微调,即可提升所有 8 种语言的知识边界探测准确率
- 迁移方向性: 高→中、中→低的迁移链效果最佳(如 Qwen2.5-14B 上泰语最佳来自中文探针 88.31%,高棉语最佳来自马来语探针 88.15%)
- 非平行语料近似: Mean Shifting 甚至可用非平行语料计算语言均值,效果与平行语料相当
亮点¶
- 首个系统性多语言知识边界研究:填补了该领域从英语到多语言的重要空白
- 线性结构的发现及利用:知识边界在语言间呈线性可分的几何结构,使得 training-free 迁移成为可能
- 弱到强泛化现象:低资源语言子空间作为归纳偏置过滤噪声,理论解释新颖且有实践价值
- 自防御机制:微调非主导语言对竟能增强主导语言的安全表示,揭示了 LLM 内部多语言安全机制的关联性
- 完整评测套件:三种互补类型的数据集覆盖不同知识边界定义,构建过程严谨(人工标注+语言学家校验)
局限¶
- 仅分析了表示层面的知识边界感知,未探索生成过程中(尤其是 CoT 推理中)表示如何演变
- 线性探针的表达能力有限,非线性探针可能捕获更复杂的边界模式
- 实验语言以东南亚语系为主,对形态学差异大的语言(如阿拉伯语、芬兰语)的泛化性未验证
- Linear Projection 需要平行语料,虽然数量要求不高(几百对),但对极低资源语言仍可能是瓶颈
相关工作¶
- 知识边界: Azaria & Mitchell (2023) 提出 LLM 内部状态"知道自己在说谎";Marks & Tegmark (2024) 发现 true/false 表示的线性几何结构;Bürger et al. (2024) 仅简单展示英→德迁移
- 多语言 LLM: Zhao et al. (2024) 的三阶段假说(源语言→锚语言思考→源语言生成);Tang et al. (2024) 发现语言特定神经元;Zhang et al. (2024b) 发现问题翻译微调可提升多语言性能
- 跨语言对齐: Chang et al. (2022) 发现多语言编码器模型中语言差异主要编码在子空间均值中;Xu et al. (2023) 探索知识跨语言投射
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统研究多语言知识边界,弱到强泛化和自防御机制发现新颖
- 技术深度: ⭐⭐⭐⭐ — 从探测到 training-free 到 SFT 三层递进,数学推导严谨
- 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖多模型家族/尺度(7B-72B)、8种语言、三种数据集类型、多种消融
- 实用价值: ⭐⭐⭐⭐ — 训练-free 方法可直接部署为幻觉检测信号,数据集和代码已开源