Alleviating Hallucinations from Knowledge Misalignment in Large Language Models via Selective Abstention Learning¶
会议: ACL 2025
arXiv: 无公开arXiv
代码: 无
领域: LLM NLP / 幻觉缓解
关键词: 知识错位、选择性弃权、幻觉缓解、知识边界感知、拒绝机制
一句话总结¶
本文针对LLM中因知识错位(模型参数知识与事实不一致)导致的幻觉问题,提出选择性弃权学习(Selective Abstention Learning)方法,让模型在遇到知识边界外的问题时学会主动拒绝回答而非编造内容,从而减少幻觉。
研究背景与动机¶
领域现状:大语言模型存在严重的"幻觉"(hallucination)问题——生成看似流畅但与事实不符的内容。幻觉的来源多种多样,包括训练数据中的噪声、模型知识的不完整和过时、以及生成过程中的随机性。
现有痛点:现有的幻觉缓解方法主要包括:(1)RAG增强——通过检索外部知识补充模型知识,但增加了系统复杂度和延迟;(2)后处理验证——生成后检查事实性,但无法防止幻觉的产生;(3)对齐训练——通过RLHF等方法减少幻觉,但效果有限且可能影响流畅性。这些方法都没有从根本上解决"模型不知道自己不知道什么"的问题。
核心矛盾:LLM的参数化知识与真实世界知识之间存在"知识错位"(knowledge misalignment)——模型对某些知识记忆不准确或根本未学习到,但自回归生成机制会迫使模型对任何输入都给出回答,导致在知识空白区域生成幻觉。
本文目标:让LLM具备感知自身知识边界的能力,在知识充足时正常回答,在知识不足时选择弃权(abstention),而非强行编造。
切入角度:将问题转化为"LLM的知识边界检测"——如何判断一个问题是否在模型的知识覆盖范围内。通过对比模型的真实知识覆盖与问题的要求,训练模型学会在合适时机说"我不知道"。
核心 idea:通过选择性弃权学习框架,首先探测模型的知识边界(哪些问题能答对、哪些答错),然后训练模型对答错的问题产生弃权信号,同时保持对能正确回答问题的正常应答能力。
方法详解¶
整体框架¶
方法分为三个阶段:(1)知识边界探测——通过多次采样评估模型对不同问题的回答准确率,划分"知道"和"不知道"的问题;(2)弃权数据构建——为"不知道"的问题构造包含弃权标记的训练样本;(3)选择性弃权训练——在混合数据上微调模型,使其学会在合适时机弃权。
关键设计¶
-
知识边界探测(Knowledge Boundary Probing):
- 功能:量化评估模型对每个知识点的掌握程度
- 核心思路:对训练集中的每个问题,使用模型进行多次随机采样(如10次),计算正确回答的比例作为"知识置信度"。设定阈值将问题分为三类:高置信(>0.8,模型真正知道的)、中等置信(0.3-0.8,模型部分了解的)、低置信(<0.3,模型不知道的)。低置信问题是幻觉的高发区域
- 设计动机:自回归LLM的hidden state中不包含显式的"不确定性信号",通过多次采样可以间接估计模型的知识掌握程度
-
弃权数据构建(Abstention Data Construction):
- 功能:为模型提供"何时应该弃权"的训练信号
- 核心思路:对于低置信度的问题,构造包含弃权响应的训练样本。弃权响应不是简单的"我不知道",而是结构化的弃权模板:"根据我的知识,我无法确定[具体知识领域]的准确信息,建议查阅[相关资源]"。同时保留高置信度问题的正确回答作为正样本,确保模型不会过度弃权
- 设计动机:直接训练模型拒绝所有困难问题会导致模型变得过于保守。需要精心平衡弃权和回答的比例
-
选择性弃权损失函数:
- 功能:联合优化回答质量和弃权时机
- 核心思路:设计双目标损失:\(\mathcal{L} = \mathcal{L}_{answer} + \beta \cdot \mathcal{L}_{abstain}\),其中 \(\mathcal{L}_{answer}\) 是在高置信样本上的标准语言建模损失,\(\mathcal{L}_{abstain}\) 是在低置信样本上的弃权响应预测损失。超参数 \(\beta\) 控制弃权的严格程度
- 设计动机:单一损失要么导致过度弃权(影响有用性)要么弃权不足(幻觉仍然存在),双目标损失可以灵活调节
损失函数 / 训练策略¶
使用LoRA高效微调策略在混合数据上训练。训练数据由高置信问题的正确回答和低置信问题的弃权响应组成,比例通过 \(\beta\) 调节。
实验关键数据¶
主实验¶
| 方法 | TruthfulQA Acc↑ | SelfAware Acc↑ | 弃权率 | 正确回答质量 |
|---|---|---|---|---|
| 原始LLM | 42.3 | 53.2 | 0% | 高 |
| + RLHF对齐 | 48.7 | 58.4 | 2% | 高 |
| + RAG | 52.1 | 61.3 | 0% | 较高 |
| + 选择性弃权 (本文) | 58.6 | 67.8 | 18% | 高 |
消融实验¶
| 配置 | TruthfulQA Acc | 弃权率 | 说明 |
|---|---|---|---|
| Full model | 58.6 | 18% | 完整模型 |
| 无知识边界探测 | 51.2 | 25% | 弃权不精准,过度拒绝 |
| 固定阈值弃权 | 54.3 | 15% | 灵活性不足 |
| \(\beta=0\)(无弃权训练) | 42.3 | 0% | 退化为原始模型 |
| \(\beta=2.0\)(高弃权权重) | 55.1 | 35% | 过度弃权影响可用性 |
关键发现¶
- 选择性弃权将TruthfulQA准确率从42.3%提升到58.6%(+16.3%),优于RAG(+9.8%)和RLHF(+6.4%)
- 弃权率约18%是最佳平衡点——太低则幻觉未充分缓解,太高则模型可用性下降
- 知识边界探测的精度至关重要——不准确的探测会导致模型错误弃权(本该回答的问题)或错误回答(本该弃权的问题)
- 模型在弃权时提供的结构化信息(如"建议查阅XX领域资料")比简单的"我不知道"更受用户欢迎
亮点与洞察¶
- 从"让模型不说错"转向"让模型知道何时不说",这种范式转变很有洞察力。类比人类,承认不知道本身就是一种知识
- 知识边界探测思路可以迁移到其他场景:(1)动态RAG——只在模型不确定时检索;(2)主动学习——优先学习模型知识空白区域
- 选择性弃权与过度拒绝之间的平衡是一个值得深入研究的问题,涉及AI系统的可信度和可用性trade-off
局限与展望¶
- 知识边界探测需要多次采样,计算成本较高
- 模型的知识边界会随时间变化(知识过时),需要定期重新探测
- 对于需要创造性回答的任务(如写作、头脑风暴),弃权可能不是合适的策略
- 未探索将弃权信号与RAG相结合的方案——弃权时自动触发检索
相关工作与启发¶
- vs R-Tuning: R-Tuning也研究教LLM说"不知道",但使用简单的二分类,本文的多次采样知识探测更精细
- vs Know-No: Know-No关注LLM的不确定性估计,本文进一步将不确定性转化为弃权行为
- vs Self-RAG: Self-RAG让模型自己决定是否需要检索,思路与本文的弃权决策类似但目标不同
评分¶
- 新颖性: ⭐⭐⭐⭐ 选择性弃权的思路有启发性,但知识探测和弃权训练的具体技术相对常规
- 实验充分度: ⭐⭐⭐⭐ 在多个幻觉评测基准上验证,消融实验覆盖关键设计选择
- 写作质量: ⭐⭐⭐ 无法完全评估(未见完整论文)
- 价值: ⭐⭐⭐⭐ 为幻觉缓解提供了新范式,弃权机制具有广泛的应用前景
相关论文¶
- [ACL 2025] ReLearn: Unlearning via Learning for Large Language Models
- [ACL 2025] Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering
- [ACL 2025] Beyond Facts: Evaluating Intent Hallucination in Large Language Models
- [ACL 2025] Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models
- [ACL 2025] Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations