Knowledge Boundary of Large Language Models: A Survey¶

会议: ACL 2025
arXiv: 2412.12472
领域: LLM NLP
关键词: 知识边界, 幻觉, 不确定性估计, 校准, 知识分类

一句话总结¶

本文提出了 LLM 知识边界的形式化定义框架，将知识分为四种类型（PAK/PSK/MSU/MAU），并围绕"为什么研究知识边界""如何识别知识边界""如何缓解知识边界问题"三个核心问题系统综述了相关研究。

研究背景与动机¶

LLM 在参数中存储了大量知识，但在记忆和利用某些知识方面仍存在局限，导致不真实、不准确的回复生成
现有知识边界定义存在不足：Know-Unknown Quadrant（Yin et al. 2023）概念性强但缺乏形式化；Yin et al. (2024) 有形式化但仅关注特定 LLM
现有综述要么缺乏清晰形式化定义（Li et al. 2024），要么仅聚焦弃权策略（Wen et al. 2024）
理解知识边界对 LLM 的可信部署至关重要

方法详解¶

整体框架¶

从三个维度定义三层知识边界，每层包含前一层：

Outward Knowledge Boundary（外显边界）：通过有限测试实例Q̂ₖ可验证的知识
Parametric Knowledge Boundary（参数边界）：抽象嵌入在 LLM 参数中、可通过至少一种表达验证的知识
Universal Knowledge Boundary（通用边界）：人类已知的全部可验证知识

关键设计¶

四类知识定义： - PAK（Prompt-Agnostic Known）：无论用什么 prompt 表述，LLM 都能正确回答的知识 - PSK（Prompt-Sensitive Known）：LLM参数中存在但对prompt形式敏感的知识——某些表述能激发，另一些则失败 - MSU（Model-Specific Unknown）：特定LLM不具备但人类已知的知识（如领域专业知识、过时知识） - MAU（Model-Agnostic Unknown）：人类也不知道的知识，无法验证

三大不良行为（RQ1: Why Study?）： 1. 上下文误导的不真实回复（PSK相关）：虚假上下文使LLM偏离正确答案；无关上下文分散注意力 2. 事实性幻觉（MSU相关）：领域知识不足、知识过时、对未知知识过度自信 3. 真实但不期望的回复（MAU相关）：对模糊知识的随机回答、对争议知识的偏见回复

识别方法（RQ2: How to Identify?）： 1. 不确定性估计： - 不确定性分解（认知 vs 偶然），对应参数边界和外显边界间的差距 - Conformal Prediction：提供校准后的预测集，适用于黑盒LLM - Token概率、语义一致性、言语化不确定性 2. 置信度校准： - Prompt 方法：采样概率、集成提示、自表达置信度 - 微调方法：指令调优表达置信度、训练辅助模型评估正确性 3. 内部状态探测： - 线性探测注意力头、隐层激活、神经元和 token，评估事实准确性

缓解策略（RQ3: How to Mitigate?）： - PSK 知识：Prompt 优化、上下文学习增强、推理增强、抗虚假上下文 - MSU 知识：RAG、知识编辑、微调更新、弃权策略（训练/基于校准/基于一致性） - MAU 知识：对齐训练、输出调控

实验关键数据¶

主实验¶

作为综述论文，本文不包含自身实验，但系统梳理了关键研究发现：

知识类型	核心不良行为	代表性识别方法	主流缓解策略
PAK	-	高概率阈值验证	-
PSK	上下文误导	Prompt扰动、不确定性分解	Prompt优化、ICL
MSU	事实幻觉	语义一致性、校准、探测	RAG、知识编辑、弃权
MAU	偏见/随机回复	未充分探索	对齐训练

关键发现¶

识别方法与知识类型的对应关系未被充分建立——大多数方法仅关注外显边界
不确定性估计和置信度校准概念相近但有本质区别——前者关注整体分布，后者关注特定预测
LLM过度自信问题严重——在不熟悉主题上保持高置信度但输出错误
知识边界动态变化——LLM训练数据存在时间截止，知识会过时（如LLaMA2虽训练至2022但倾向使用2019数据）
模型规模不解决根本问题——更大模型在领域知识缺口和过度自信方面仍有类似问题

亮点与洞察¶

形式化知识分类框架是本文最大贡献——将概念性的 Known-Unknown Quadrant 转化为可操作的数学定义
PAK/PSK 的区分特别有洞见：同一知识可能因 prompt 不同而表现为"会"或"不会"，这对 prompt 工程有直接指导意义
三层嵌套的知识边界结构（Outward ⊂ Parametric ⊂ Universal）提供了清晰的问题定位框架
将不良行为与知识类型一一对应，为针对性改进提供了路线图

局限性¶

MAU（人类未知知识）讨论较少，因该领域本身研究匮乏
知识边界的形式化依赖概率阈值 ε，但最优阈值的选择缺乏指导
综述覆盖截至 2024 年底，快速发展的 LLM 领域可能已有更新进展
未深入讨论多模态场景下的知识边界问题
各知识类型间的边界可能是模糊的，实际应用中难以严格区分

评分¶

新颖性：⭐⭐⭐⭐（形式化定义框架有原创贡献）
实用性：⭐⭐⭐⭐⭐（分类框架可直接指导 LLM 可靠性改进）
综述覆盖度：⭐⭐⭐⭐⭐（系统全面，从动机到识别到缓解）
写作质量：⭐⭐⭐⭐⭐（结构清晰，Summary Box 设计便于快速把握）