TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification¶
会议: ACL 2025
arXiv: 2503.15289
代码: GitHub
领域: NLP理解
关键词: 文本溯源, 句子追踪, 关系分类, 长文档, 多文档
一句话总结¶
提出TROVE文本溯源挑战,将目标文本中每个句子追溯到源文档中的具体源句,并分类其细粒度关系(引用、压缩、推理等),覆盖多文档和长文档场景。
研究背景与动机¶
- 领域现状: LLM生成文本的可靠性和可追溯性受到关注,现有引用生成和事实验证工作主要聚焦于文档级或粗粒度溯源。
- 现有痛点: 高风险领域(法律、医疗)需要理解每句话的来源和生成方式,但缺乏句子级细粒度溯源数据集和评估方法。
- 核心矛盾: 现有工作仅关注单文档级别的来源识别,无法满足多文档、长文档场景下的精细溯源需求。
- 本文要解决什么: 提供一个涵盖多场景、多语言、多源长度的细粒度文本溯源数据集和评估框架。
- 切入角度: 基于LongBench、LooGLE、CRUD-RAG三个公开数据集构建溯源数据,结合多检索器和GPT-4o三阶段标注。
- 核心idea一句话: 文本溯源不仅要追踪源句,还要分类target-source之间的细粒度关系(引用/压缩/推理/其他)。
方法详解¶
整体框架¶
构建覆盖11种场景(QA和摘要)、中英双语、不同源文本长度(0-5k、5k-10k、10k+)的溯源数据集,通过三阶段标注保证质量。
关键设计¶
- 多检索器句子检索: 联合BM25、Dense Retrieval和LCS三种检索器,取至少两个检索器命中的并集作为候选源句,top-k=10。
- GPT-4o溯源标注: 基于候选源句进行细粒度标注,识别源句并分类为Quotation(引用)、Compression(压缩)、Inference(推理)、Others(其他如否定)四种关系。
- 人工溯源验证: 8名研究生花费约510小时审查标注,验证并补充GPT-4o遗漏的源句,平均每句花费$0.20。
评估策略¶
提出13个指标体系,包括宏平均/微平均的Track-P/R/F1(源追踪)和Relation-P/R/F1(关系分类),以及综合Overall F1。支持直接提示和检索增强两种评估范式。
实验关键数据¶
主实验(11个模型的Overall F1)¶
| 模型 | 直接提示 | 检索增强 |
|---|---|---|
| GPT-4o | - | 最佳闭源 |
| DeepSeek-V3 (671B) | - | 开源最佳 |
| LLama3-8B | 4.71 | 30.96 |
| Qwen2.5-14B | - | 优于同系列7B |
| Vicuna-7B | 7.08 | 22.74 |
| ChatGLM-6B | 0.02 | 3.47 |
消融实验(检索方法对比)¶
| 检索方法 | Track F1 (Macro) | Overall F1 |
|---|---|---|
| LCS | 29.41 | 14.67 |
| BM25 | 35.70 | 17.81 |
| Dense | 28.28 | 14.10 |
| Union (≥2) | 46.17 | 22.82 |
关键发现¶
- 检索增强对溯源至关重要,所有模型在检索增强下显著优于直接提示
- 更大模型在复杂关系分类上表现更好
- 闭源模型通常领先,但开源模型结合检索增强后展示显著潜力
- 关系分类比源句追踪更具挑战性
亮点与洞察¶
- 首次将文本溯源定义为句子级追踪+关系分类的双任务,粒度远超现有工作
- 三阶段标注流程(多检索器→GPT-4o→人工)是实用的长文档标注方法论
- 覆盖中英双语和多种源文本长度,评估全面
局限性 / 可改进方向¶
- 数据集规模有限(约5000句),扩展到更多领域和语言值得探索
- 源文本超过模型上下文长度时采用滑动窗口,可能丢失跨窗口信息
- 关系类型定义较粗,可进一步细化(如推理可分为归纳/演绎)
相关工作与启发¶
- 与引用生成、事实验证、grounded generation形成互补
- 为RAG系统的可解释性和可追溯性提供新评估视角
- 多检索器fusion策略对长文档任务具有普适价值
- 数据标注中GPT-4o+人工审查的流程可作为长文档标注的通用范式
- 溯源任务可扩展到代码生成和学术写作等场景
技术细节补充¶
- 数据集分布:单文档中文平均196句/源文档,单文档英文平均637句/源文档
- 每个目标句平均溯源句数:单文档中文7.04句,多文档英文1.97句
- 标注一致性(Fleiss' Kappa):追踪0.60-0.74,关系分类0.48-0.62,GPT-4o修正0.44-0.70
- 评估采用滑动窗口处理超长源文本:将输入切分为0-M, M-2M, 2M-3M等chunk独立处理后合并
- 关系类型细分:Quotation(逐字/部分复制)、Compression(摘要/释义)、Inference(展开/泛化/特化)、Others(否定等)
评分¶
- 新颖性: ⭐⭐⭐⭐ 任务定义新颖,但数据构建方法较常规
- 实验充分度: ⭐⭐⭐⭐ 11个模型、多维度分析,但部分结果缺失
- 写作质量: ⭐⭐⭐⭐ 结构清晰,任务定义严谨
- 价值: ⭐⭐⭐⭐ 为LLM生成内容的可追溯性提供重要基础