Alleviating Hallucinations from Knowledge Misalignment in Large Language Models via Selective Abstention Learning¶

会议: ACL 2025
arXiv: 无公开arXiv
代码: 无
领域: LLM NLP / 幻觉缓解
关键词: 知识错位、选择性弃权、幻觉缓解、知识边界感知、拒绝机制

一句话总结¶

本文针对LLM中因知识错位（模型参数知识与事实不一致）导致的幻觉问题，提出选择性弃权学习（Selective Abstention Learning）方法，让模型在遇到知识边界外的问题时学会主动拒绝回答而非编造内容，从而减少幻觉。

研究背景与动机¶

领域现状：大语言模型存在严重的"幻觉"（hallucination）问题——生成看似流畅但与事实不符的内容。幻觉的来源多种多样，包括训练数据中的噪声、模型知识的不完整和过时、以及生成过程中的随机性。

现有痛点：现有的幻觉缓解方法主要包括：（1）RAG增强——通过检索外部知识补充模型知识，但增加了系统复杂度和延迟；（2）后处理验证——生成后检查事实性，但无法防止幻觉的产生；（3）对齐训练——通过RLHF等方法减少幻觉，但效果有限且可能影响流畅性。这些方法都没有从根本上解决"模型不知道自己不知道什么"的问题。

核心矛盾：LLM的参数化知识与真实世界知识之间存在"知识错位"（knowledge misalignment）——模型对某些知识记忆不准确或根本未学习到，但自回归生成机制会迫使模型对任何输入都给出回答，导致在知识空白区域生成幻觉。

本文目标：让LLM具备感知自身知识边界的能力，在知识充足时正常回答，在知识不足时选择弃权（abstention），而非强行编造。

切入角度：将问题转化为"LLM的知识边界检测"——如何判断一个问题是否在模型的知识覆盖范围内。通过对比模型的真实知识覆盖与问题的要求，训练模型学会在合适时机说"我不知道"。

核心 idea：通过选择性弃权学习框架，首先探测模型的知识边界（哪些问题能答对、哪些答错），然后训练模型对答错的问题产生弃权信号，同时保持对能正确回答问题的正常应答能力。

方法详解¶

整体框架¶

方法分为三个阶段：（1）知识边界探测——通过多次采样评估模型对不同问题的回答准确率，划分"知道"和"不知道"的问题；（2）弃权数据构建——为"不知道"的问题构造包含弃权标记的训练样本；（3）选择性弃权训练——在混合数据上微调模型，使其学会在合适时机弃权。

关键设计¶

知识边界探测（Knowledge Boundary Probing）:
- 功能：量化评估模型对每个知识点的掌握程度
- 核心思路：对训练集中的每个问题，使用模型进行多次随机采样（如10次），计算正确回答的比例作为"知识置信度"。设定阈值将问题分为三类：高置信（>0.8，模型真正知道的）、中等置信（0.3-0.8，模型部分了解的）、低置信（<0.3，模型不知道的）。低置信问题是幻觉的高发区域
- 设计动机：自回归LLM的hidden state中不包含显式的"不确定性信号"，通过多次采样可以间接估计模型的知识掌握程度
弃权数据构建（Abstention Data Construction）:
- 功能：为模型提供"何时应该弃权"的训练信号
- 核心思路：对于低置信度的问题，构造包含弃权响应的训练样本。弃权响应不是简单的"我不知道"，而是结构化的弃权模板："根据我的知识，我无法确定[具体知识领域]的准确信息，建议查阅[相关资源]"。同时保留高置信度问题的正确回答作为正样本，确保模型不会过度弃权
- 设计动机：直接训练模型拒绝所有困难问题会导致模型变得过于保守。需要精心平衡弃权和回答的比例
选择性弃权损失函数:
- 功能：联合优化回答质量和弃权时机
- 核心思路：设计双目标损失：\(\mathcal{L} = \mathcal{L}_{answer} + \beta \cdot \mathcal{L}_{abstain}\)，其中 \(\mathcal{L}_{answer}\) 是在高置信样本上的标准语言建模损失，\(\mathcal{L}_{abstain}\) 是在低置信样本上的弃权响应预测损失。超参数 \(\beta\) 控制弃权的严格程度
- 设计动机：单一损失要么导致过度弃权（影响有用性）要么弃权不足（幻觉仍然存在），双目标损失可以灵活调节

损失函数 / 训练策略¶

使用LoRA高效微调策略在混合数据上训练。训练数据由高置信问题的正确回答和低置信问题的弃权响应组成，比例通过 \(\beta\) 调节。

实验关键数据¶

主实验¶

方法	TruthfulQA Acc↑	SelfAware Acc↑	弃权率	正确回答质量
原始LLM	42.3	53.2	0%	高
+ RLHF对齐	48.7	58.4	2%	高
+ RAG	52.1	61.3	0%	较高
+ 选择性弃权 (本文)	58.6	67.8	18%	高

消融实验¶

配置	TruthfulQA Acc	弃权率	说明
Full model	58.6	18%	完整模型
无知识边界探测	51.2	25%	弃权不精准，过度拒绝
固定阈值弃权	54.3	15%	灵活性不足
\(\beta=0\)（无弃权训练）	42.3	0%	退化为原始模型
\(\beta=2.0\)（高弃权权重）	55.1	35%	过度弃权影响可用性

关键发现¶

选择性弃权将TruthfulQA准确率从42.3%提升到58.6%（+16.3%），优于RAG（+9.8%）和RLHF（+6.4%）
弃权率约18%是最佳平衡点——太低则幻觉未充分缓解，太高则模型可用性下降
知识边界探测的精度至关重要——不准确的探测会导致模型错误弃权（本该回答的问题）或错误回答（本该弃权的问题）
模型在弃权时提供的结构化信息（如"建议查阅XX领域资料"）比简单的"我不知道"更受用户欢迎

亮点与洞察¶

从"让模型不说错"转向"让模型知道何时不说"，这种范式转变很有洞察力。类比人类，承认不知道本身就是一种知识
知识边界探测思路可以迁移到其他场景：（1）动态RAG——只在模型不确定时检索；（2）主动学习——优先学习模型知识空白区域
选择性弃权与过度拒绝之间的平衡是一个值得深入研究的问题，涉及AI系统的可信度和可用性trade-off

局限与展望¶

知识边界探测需要多次采样，计算成本较高
模型的知识边界会随时间变化（知识过时），需要定期重新探测
对于需要创造性回答的任务（如写作、头脑风暴），弃权可能不是合适的策略
未探索将弃权信号与RAG相结合的方案——弃权时自动触发检索

评分¶

新颖性: ⭐⭐⭐⭐ 选择性弃权的思路有启发性，但知识探测和弃权训练的具体技术相对常规
实验充分度: ⭐⭐⭐⭐ 在多个幻觉评测基准上验证，消融实验覆盖关键设计选择
写作质量: ⭐⭐⭐ 无法完全评估（未见完整论文）
价值: ⭐⭐⭐⭐ 为幻觉缓解提供了新范式，弃权机制具有广泛的应用前景