VeriTrail: Closed-Domain Hallucination Detection with Traceability¶

会议: ICLR 2026
arXiv: 2505.21786
代码: 无（数据集将发布于 https://aka.ms/veritrail-datasets）
领域: LLM/NLP
关键词: hallucination detection, faithfulness evaluation, traceability, multi-step generation, DAG

一句话总结¶

提出 VeriTrail，首个面向多步生成（MGS）过程的闭域幻觉检测方法，通过将生成过程建模为 DAG 并沿图逐层验证 claim，实现了幻觉检测+溯源（provenance）+错误定位（error localization）的完整可追溯性，在两个新数据集上显著优于所有基线。

研究背景与动机¶

语言模型在基于源文档生成内容时常产生不忠于原文的内容（闭域幻觉）。随着多步生成过程（MGS，如层次化摘要、GraphRAG）的广泛应用，幻觉风险被放大——每一步都可能引入或传播错误。

现有方法的核心痛点： 1. 现有幻觉检测方法将最终输出与源文档直接对比，不区分中间输出和最终输出 2. 对 SGS（单步生成）这没问题，但对 MGS 来说，只检测"有无幻觉"远远不够——还需要知道幻觉在哪里产生的（error localization）和忠实内容是如何推导来的（provenance） 3. 简单方法（逐一对比中间输出）在中间输出数量巨大时（>100K 个）计算上不可行，且无法处理多个中间输出联合支持一个 claim 的情况

切入角度：将生成过程建模为 DAG（有向无环图），设计逐层回溯的验证算法，在检测幻觉的同时自动构建证据链和定位错误阶段。

方法详解¶

整体框架¶

将生成过程建模为 DAG \(G=(V,E)\)： - 节点 \(v \in V\)：表示文本片段（源文档 / 中间输出 / 最终输出） - 边 \((u,v) \in E\)：表示 \(u\) 被用作生成 \(v\) 的输入 - 根节点 \(V_0\)：源文档，终端节点 \(v^*\)：最终输出

VeriTrail 对最终输出提取的每个 claim 独立执行以下迭代过程，从终端节点向根节点回溯。

关键设计¶

Sub-Claim 分解：
使用 Claimify 将复合 claim 分解为独立可验证的子声明
例："公司X在2020年收购了两家医疗创业公司" → (1) 收购了两家创业公司 (2) 在2020年 (3) 属于医疗扩张战略
子声明作为后续验证的上下文保留，但不直接验证
Evidence Selection（证据选择）：
取终端节点的源节点 \(src(v^*)\)，将其切分为句子并分配唯一 ID
LLM 选择强烈支持或反驳 claim 的句子 ID
关键：返回的 ID 必须与程序化分配的 ID 匹配，保证选中的句子不会是幻觉
支持并行处理以降低延迟
Verdict Generation（判定生成）：
基于选中的证据句子，LLM 给出三级判定：Fully Supported / Not Fully Supported / Inconclusive
避免冗余上下文：根节点保留全文，中间节点使用 Evidence Selection 生成的摘要
超出上下文限制时自动重跑 Evidence Selection 进行压缩
Candidate Node Selection & 终止条件：
Fully Supported/Inconclusive → 继续验证证据来源节点
Not Fully Supported → 扩大搜索范围（验证所有检查过的节点的源节点），降低假阳性
终止条件：(1) 仅剩已验证的根节点 (2) 无候选节点 (3) 连续 \(q\) 次 Not Fully Supported
超参 \(q\) 控制检测严格度：\(q=1\) 偏向高 recall，\(q=3\) 偏向高 precision

可追溯性输出¶

Provenance：对 Fully Supported 的 claim，返回从终端到根节点的完整证据链
Error Localization：对 Not Fully Supported 的 claim，定位幻觉最可能被引入的 DAG 阶段

实验关键数据¶

主实验（幻觉检测性能）¶

在 FABLES+（书籍层次化摘要，734 claims）和 DiverseSumm+（GraphRAG 新闻问答，560 claims）上：

方法	Macro F1 (F)	Macro F1 (D)	Bal. Acc (F)	Bal. Acc (D)
VeriTrail (q=3)	84.5	79.5	83.6	76.3
VeriTrail (q=1)	74.0	76.6	84.6	83.0
RAG (k=15)	69.6	75.1	76.5	74.0
Bespoke-MiniCheck-7B	62.2	72.1	69.0	69.4
Gemini 1.5 Pro	61.1	49.8	60.8	57.6
GPT-4.1 Mini	60.7	62.9	58.2	61.5
AlignScore	59.6	60.4	67.5	62.7
INFUSE	40.5	20.0	59.5	50.1

VeriTrail 在两个数据集上的 Macro F1 均领先最强基线 5-15 个百分点
长上下文 LLM（Gemini 1.5 Pro, GPT-4.1 Mini）表现不佳，说明直接塞入长文本并非好策略

消融实验（组件贡献）¶

论文在附录 E.1 进行了详细消融： | 组件 | 移除后 Macro F1 变化 (FABLES+) | |------|:---:| | 去掉 sub-claim 分解 | 下降 | | 去掉 DAG 结构（仅验证终端 vs 源文档） | 显著下降（退化为 RAG） | | 去掉 Not Fully Supported 扩展搜索 | 假阳性增加 | | q=1 vs q=3 | q=3 提升 precision，q=1 提升 recall |

关键发现¶

MGS 专属价值：在 FABLES+ 中（层次化摘要，超过 100K 中间输出），VeriTrail 的 DAG 回溯机制发挥关键作用
成本效率：尽管验证负担显著更大，VeriTrail 的总成本仍在合理范围内
错误阶段分布：分析显示不同阶段的幻觉引入概率不同，为 MGS 流程优化提供了指引

亮点与洞察¶

首次系统处理 MGS 幻觉检测：填补了"多步生成过程缺乏可追溯性"这一重要空白
DAG 建模的优雅性：将异构生成过程统一为 DAG 表示，算法通用性强
证据 ID 的工程巧思：通过 programmatic ID 分配 + LLM 返回 ID 匹配，巧妙地消除了"用 LLM 验证 LLM"中的二次幻觉风险
q 参数提供灵活性：用户可根据场景（高召回 vs 高精度）调整检测行为

局限性 / 可改进方向¶

仅评估了两种 MGS 过程（层次化摘要 + GraphRAG），通用性有待在更多场景验证
依赖 LLM 作为 evaluator，本身可能引入系统性偏差
对 Inconclusive 判定的处理较粗糙（实验中直接排除）
数据集规模相对较小（~1300 claims），统计显著性有限
未对比 reference-free 方法（如基于注意力图的方法）

评分¶

新颖性: ⭐⭐⭐⭐ 首个 MGS 可追溯幻觉检测方法，DAG 建模思路优雅，但核心验证仍是"用LLM查LLM"
实验充分度: ⭐⭐⭐⭐ 两个新数据集 + 丰富的基线对比 + 消融 + 成本分析，但数据规模偏小
写作质量: ⭐⭐⭐⭐⭐ 框架定义严谨，算法描述清晰，图示直观
价值: ⭐⭐⭐⭐ 解决了实际且重要的问题，对 MGS 流程的质量保障有直接工程价值