Enhancing Hallucination Detection via Future Context¶

会议: ACL 2026
arXiv: 2507.20546
代码: 无
领域: LLM 安全 / 幻觉检测
关键词: 幻觉检测, 未来上下文, 黑盒生成器, 采样方法, 滚雪球效应

一句话总结¶

本文提出利用采样生成的"未来上下文"（后续句子）来增强黑盒场景下的幻觉检测，利用幻觉一旦出现就倾向于持续传播的"滚雪球效应"，在 SelfCheckGPT 和 SC 等多种采样方法上一致提升检测性能。

领域现状：LLM 幻觉检测方法主要分为基于不确定性（需要 logits 访问）和基于采样（如 SelfCheckGPT，通过生成多个回复检查一致性）两类。在实际场景中（如博客文章、API 服务被更新或弃用），生成器的内部信号常常不可访问。

现有痛点：(1) 不确定性方法需要 token 级 logits，在黑盒场景下不可行；(2) 检索方法对内部文档或私有知识库受限，且无法检测逻辑幻觉和内部不一致（35.2% 的自相矛盾幻觉无法通过检索发现）；(3) 现有采样方法仅利用"当前上下文"的替代采样，未利用"未来上下文"的信号。

核心矛盾：幻觉一旦出现就倾向于在后续生成中持续和放大（滚雪球效应），但现有方法只关注当前句的一致性，忽略了未来上下文提供的线索。

本文目标：利用未来上下文作为额外线索来增强现有的采样方法幻觉检测能力。

切入角度：用指令微调的 LLM 生成目标句之后的可能下文，将这些未来上下文附加到检测 prompt 中，为幻觉判断提供更丰富的线索。

核心 idea：如果当前句是幻觉，其未来上下文更可能包含幻觉信息——利用这种"传染性"作为检测信号。

三步管道：(A) 黑盒生成器产出上下文-回复对；(B) 未来上下文采样——用指令微调 LLM 生成可能的后续句子；(C) 将未来上下文集成到现有幻觉检测方法（SelfCheckGPT、SC、Direct）中，通过附加到 prompt 来丰富检测线索。

未来上下文采样:
- 功能：为目标句生成可能的后续句子作为检测线索
- 核心思路：用指令微调 LLM 提示生成"下一句话"。当需要超过一句的未来上下文时，一次性生成多句比逐句序贯生成更有效。一个"未来上下文"定义为单次采样路径生成的句子集合
- 设计动机：滚雪球效应表明幻觉句增加后续句子出现幻觉的概率，这些后续幻觉可以反过来作为检测当前句幻觉的线索
与现有方法的集成:
- 功能：将未来上下文作为通用增强方案集成到多种方法中
- 核心思路：统一策略——直接将未来上下文附加到检测 prompt 中。SelfCheckGPT+f: 未来上下文附加到替代回复中扩展一致性检查的线索范围；SC+f: 用未来上下文替代 SC 的描述字段；Direct+f: 将未来上下文附加到 Direct 方法的 prompt 中，增强内部知识辅助的幻觉判断
- 设计动机：简单统一的附加策略使方法可以轻松集成，无需修改底层检测逻辑
Direct 基线方法:
- 功能：直接利用检测器 LLM 的内部知识判断幻觉
- 核心思路：直接向 LLM 提出二元问题（"这句话准确吗？"），利用模型的内部知识和推理能力做判断。每个句子-线索对独立评估，最终平均得到幻觉分数
- 设计动机：作为不依赖复杂概率估计的简洁基线，同时提供精确控制关键要素的实验条件

不涉及模型训练，使用预训练指令微调模型（LLaMA 3.1、Gemma 3、Qwen 2.5）作为检测器和采样器。

幻觉检测 AUC-PR（平均跨 6 个数据集）

检测器	方法	无未来上下文	有未来上下文	提升
LLaMA 3.1	Direct	68.9	71.1	+2.2
LLaMA 3.1	SelfCheckGPT	73.5	74.8	+1.3
LLaMA 3.1	SC	65.7	70.8	+5.1
Gemma 3	SelfCheckGPT	69.4	72.4	+3.0
Qwen 2.5	Direct	67.4	69.4	+2.0