REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models¶

会议: ACL 2025
arXiv: 2502.13622
代码: https://github.com/oneonlee/REFIND (有)
领域: LLM / NLP
关键词: 幻觉检测, 检索增强, 上下文敏感度, 多语言, token级别分析

一句话总结¶

提出 REFIND 框架，通过计算每个 token 在有无检索文档条件下的生成概率之比（Context Sensitivity Ratio, CSR），实现对 LLM 输出中幻觉片段的高效检测，在 SemEval-2025 Task 3 的 9 种语言上显著超越基线。

LLM 生成的幻觉内容（即与事实不符的输出）严重限制了其在知识密集型任务中的可靠性。现有幻觉检测方法存在明显不足：

Token级分类器（如基于 XLM-RoBERTa）：仅依赖模型内部知识进行二分类，不利用外部证据，在低资源语言上表现极差

FAVA（检索增强编辑方法）：虽然引入外部知识，但采用多步流水线（检索→比较→编辑），步骤间的对齐容易引入误差，且流程复杂

核心问题在于：如何更直接、高效地利用检索到的外部文档来定位 LLM 输出中的幻觉片段？

REFIND 的关键洞察是：如果一个 token 是幻觉（虚构的），那么当提供了正确的外部证据后，模型对该 token 的生成概率应当发生显著变化。反之，如果一个 token 是事实性的，外部证据不会大幅改变其生成概率。

REFIND 的三步流程：(1) 给定问题 q，使用检索器 R 检索相关文档集 D；(2) 用冻结的 LLM 分别计算每个 token 在有/无检索上下文条件下的生成概率；(3) 计算 CSR，超过阈值 δ 的 token 被标记为幻觉。

$$CSR(t_i) = \frac{\log p_\theta(t_i | D, q, t_{<i})}{\log p_\theta(t_i | q, t_{<i}) + \varepsilon}$$

分子：在问题 q、历史 token t_{<i} 和检索文档 D 条件下的 log 概率
分母：仅在问题和历史 token 条件下的 log 概率（+ ε 防除零）
CSR 高意味着检索上下文对该 token 的生成产生了强影响，即该 token 可能是幻觉
设计动机：与其让另一个模型去"判断"某段文本是否幻觉，不如直接观察原始 LLM 在获得正确证据后的概率变化——这是一种更本质、更直接的信号
混合检索策略：采用稀疏+稠密混合检索。先用 BM25 从预处理的多语言 Wikipedia 语料库中检索 Top-10 文档，再用 multilingual-e5-large 重排选出最终 5 篇文档。为保持跨语言一致性，统一使用多语言嵌入模型。
阈值判定：CSR ≥ δ 则判定为幻觉。δ 是可调超参数，用于平衡精确率和召回率。实验表明大多数语言在 δ=0.1~0.4 范围内表现稳定。

CSR 的核心思想简洁而有效：不需要训练额外模型，直接利用 LLM 自身的概率分布变化来检测幻觉，计算成本远低于需要微调的方法
多语言零样本能力突出：得益于多语言检索器和 CSR 的语言无关性，在 9 种语言（含低资源）上均表现良好
比 FAVA 更直接：避免了多步流水线中的对齐误差，CSR 在 token 级别提供了清晰的幻觉信号
case study 清晰：例如对 "Chance the Rapper 何时出道" 的回答中，"2011" 被正确识别为幻觉，因为检索文档给出了不同日期