跳转至

VeriTrail: Closed-Domain Hallucination Detection with Traceability

会议: ICLR2026
arXiv: 2505.21786
代码: 数据集
领域: llm_nlp
关键词: hallucination detection, faithfulness evaluation, traceability, multi-generative-step, DAG

一句话总结

提出 VeriTrail——首个为多步生成过程(MGS)提供可追溯性的闭域幻觉检测方法,建模生成过程为 DAG 并沿路径逐层验证,同时构建了首批包含所有中间输出和人工标注的 MGS 数据集。

研究背景与动机

  • LLM 即使被要求遵循源材料,仍常生成未支持的内容——"闭域幻觉"
  • 生成过程分为两类:
    • 单步生成(SGS):如标准 RAG,一次 LLM 调用产出最终结果
    • 多步生成(MGS):如分层摘要、GraphRAG,中间输出作为后续输入
  • MGS 更易产生幻觉:每一步都可能引入并传播错误
  • 核心论点:对 MGS 而言,仅检测最终输出中的幻觉是不够的,还需要:
    • 溯源(Provenance):理解输出如何从源材料推导
    • 错误定位(Error Localization):定位幻觉在哪一步引入
  • 现有方法只评估输出与源材料的关系,不利用中间输出,无法提供可追溯性

核心贡献

  1. 统一的生成过程概念框架(DAG 表示)
  2. VeriTrail:首个为 MGS 和 SGS 提供可追溯性的闭域幻觉检测方法
  3. FABLES+ 和 DiverseSumm+:首批包含所有中间输出和人工标注的 MGS 数据集

方法详解

概念框架:生成过程的 DAG 表示

将生成过程建模为有向无环图 \(G = (V, E)\): - 节点 \(v \in V\):文本片段(源文档/中间输出/最终输出) - 有向边 \((u, v) \in E\)\(u\) 被用作生成 \(v\) 的输入 - 根节点 \(V_0\):源文档(无入边) - 终端节点 \(v^*\):最终输出(无出边) - 阶段函数 \(\text{stage}: V \to \mathbb{N}\):反映节点在生成过程中的位置

VeriTrail 检测流程

输入:(1) 完成的生成过程 DAG;(2) 终止参数 \(q\);(3) 从 \(v^*\) 提取的事实声明集 \(C\)

对每个声明 \(c \in C\) 独立执行以下步骤:

Step 1: 子声明分解

  • 使用 Claimify 的 Decomposition 模块将复合声明拆分为独立可验证的子声明
  • 例:"公司X在2020年收购了两家初创企业作为医疗扩张的一部分" → (1) X在2020年收购两家初创企业 (2) 收购是医疗扩张的一部分
  • 递归分解,最多 20 次,避免无限循环

Step 2: 证据选择(Evidence Selection)

  • 从终端节点的源节点 \(\text{src}(v^*)\) 出发
  • 使用 NLTK 分句,为每个句子分配唯一 ID
  • LLM 选择支持/反对声明及子声明的句子(返回句子 ID)
  • 若超出上下文窗口则分割为多个并行 prompt
  • ID 验证保证:丢弃不匹配的 ID,确保证据不被幻觉

Step 3: 判决生成(Verdict Generation)

  • 若无句子被选中 → "Not Fully Supported"
  • 否则 LLM 基于证据给出三类判决:
    • Fully Supported:源文本强烈暗示整个声明
    • Not Fully Supported:至少有一部分未被源文本支持
    • Inconclusive:源文本模糊或矛盾

上下文处理:不直接使用选中句子(可能脱离上下文歧义),而是: - 根节点:包含完整内容 - 非根节点:使用证据选择步骤生成的摘要

Step 4: 候选节点选择与迭代终止

根据最新判决选择下一轮验证的候选节点:

最新判决 候选节点选择策略
Fully Supported / Inconclusive 本轮有证据节点的源节点
Not Fully Supported 本轮所有验证节点的源节点(更广泛,防漏检)

终止条件(满足任一): 1. 候选节点仅含已验证的有证据根节点 → 采用最新判决 2. 无候选节点(未到达根节点或根节点无证据)→ Not Fully Supported 3. 连续 \(q\) 次 Not Fully Supported → Not Fully Supported

可追溯性输出

对每个声明返回: - 最终判决 + LLM 推理 - 所有临时判决 - 证据链:选中句子(含节点 ID)+ 各轮证据摘要

溯源(Provenance)

  • 对 Fully Supported 声明:证据链记录了从中间节点到根节点的路径

错误定位(Error Localization)

  • 找到最后一次 Fully Supported 判决的迭代 \(n\)
  • 该迭代中有证据的非根节点的阶段即为错误阶段
  • \(\{\text{stage}(v) | v \in V_e(n), v \notin V_0\}\)

数据集构建

FABLES+(分层摘要)

  • 基于 FABLES 书籍摘要数据集
  • 重新生成 22 本书的分层摘要(平均 118K tokens),保留所有中间输出
  • 提取 734 个声明,48% 直接沿用原标注,其余人工标注

DiverseSumm+(GraphRAG)

  • 基于 DiverseSumm 新闻数据集
  • 148 个故事,1,479 篇文章,累计 1.19M tokens
  • 采样 20 个问题,用 GraphRAG 生成答案
  • 提取 560 个声明,4 位 Upwork 标注员 + 1 位作者标注
  • 87% 声明可从关联文章判断,13% 需查阅额外文章

实验结果

基线方法

类别 方法 处理长文本策略
NLI INFUSE 双向蕴含排序
NLI AlignScore 350 token 分块
NLI Bespoke-MiniCheck-7B 32K token 分块
RAG Top-k 检索 嵌入检索 + 判决
直接验证 Gemini 1.5 Pro / GPT-4.1 Mini 长上下文 LM

硬预测结果(Macro F1 / Balanced Accuracy)

方法 FABLES+ F1 FABLES+ Bal.Acc DiverseSumm+ F1 DiverseSumm+ Bal.Acc
VeriTrail (q=3) 84.5 83.6 79.5 76.3
VeriTrail (q=1) 74.0 84.6 76.6 83.0
RAG (k=15) 69.6 76.5 75.1 74.0
Bespoke-MiniCheck-7B 62.2 69.0 72.1 69.4
Gemini 1.5 Pro 61.1 60.8 49.8 57.6
GPT-4.1 Mini 60.7 58.2 62.9 61.5
AlignScore 59.6 67.5 60.4 62.7
INFUSE 40.5 59.5 20.0 50.1

关键发现: - VeriTrail 在两个数据集上均优于所有基线(q=3 在 F1 上最优,q=1 在 Balanced Accuracy 上最优) - 直接长上下文验证(Gemini 1.5 Pro)并不理想,可能因超长文档中信息检索困难 - AlignScore 和 INFUSE 等经典 NLI 方法在长文档上性能明显不足

q 参数的权衡

  • q=1(一次 NFS 即终止):高 NFS 召回(89.8%),低 NFS 精度(55.1%)
  • q=3(三次 NFS 才终止):更均衡(NFS 精度 84.5%,召回 55.9%)
  • q 越大,验证越彻底但 NFS 判决更保守

优势与局限

优势

  • 首个提供可追溯性(溯源 + 错误定位)的幻觉检测方法
  • DAG 框架统一了 SGS 和 MGS 过程的表示
  • 句子级证据选择 + ID 验证保证证据不被幻觉
  • 在超长文档(>100K tokens)上优于强基线
  • 成本效益好(Appendix D 分析)

局限

  • 依赖 LLM 执行证据选择和判决生成(受 LLM 能力限制)
  • 错误定位在某些场景下无法确定具体阶段
  • 数据集规模有限(734 + 560 声明)
  • 仅评估了 gpt-4o 模型

个人评价与思考

创新性 ⭐⭐⭐⭐⭐

  • "检测 + 追溯"的范式升级非常有价值
  • DAG 建模生成过程是对幻觉检测的根本性重新思考
  • 迭代证据选择 + 候选节点传播机制设计精妙

实用价值 ⭐⭐⭐⭐⭐

  • 直接面向 MGS 流水线(GraphRAG、分层摘要等)的实际需求
  • 错误定位对系统调试和改进极有价值
  • 句子级证据链显著降低人工审核成本

数据集贡献 ⭐⭐⭐⭐

  • FABLES+ 和 DiverseSumm+ 填补了 MGS 幻觉检测数据的空白
  • 包含完整中间输出是关键创新
  • 但规模较小

实验设计 ⭐⭐⭐⭐

  • 基线覆盖全面(NLI、RAG、长上下文 LM)
  • 硬预测+软预测双评估
  • 消融分析和错误案例分析(附录)增加可信度

综合评分 ⭐⭐⭐⭐⭐

一篇开创性的工作,将闭域幻觉检测从"判断对错"提升到"追溯来源和定位错误"。DAG 框架优雅地统一了各类生成过程,VeriTrail 的迭代验证机制在超长文档上展现出强大性能。对于日益复杂的 MGS 管道(如 GraphRAG),这种可追溯的幻觉检测方法具有极强的实用价值。

相关论文