TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification¶

领域现状: LLM生成文本的可靠性和可追溯性受到关注，现有引用生成和事实验证工作主要聚焦于文档级或粗粒度溯源。
现有痛点: 高风险领域（法律、医疗）需要理解每句话的来源和生成方式，但缺乏句子级细粒度溯源数据集和评估方法。
核心矛盾: 现有工作仅关注单文档级别的来源识别，无法满足多文档、长文档场景下的精细溯源需求。
本文要解决什么: 提供一个涵盖多场景、多语言、多源长度的细粒度文本溯源数据集和评估框架。
切入角度: 基于LongBench、LooGLE、CRUD-RAG三个公开数据集构建溯源数据，结合多检索器和GPT-4o三阶段标注。
核心idea一句话: 文本溯源不仅要追踪源句，还要分类target-source之间的细粒度关系（引用/压缩/推理/其他）。

会议: ACL 2025
arXiv: 2503.15289
代码: GitHub
领域: NLP理解
关键词: 文本溯源, 句子追踪, 关系分类, 长文档, 多文档

一句话总结¶

提出TROVE文本溯源挑战，将目标文本中每个句子追溯到源文档中的具体源句，并分类其细粒度关系（引用、压缩、推理等），覆盖多文档和长文档场景。

构建覆盖11种场景（QA和摘要）、中英双语、不同源文本长度（0-5k、5k-10k、10k+）的溯源数据集，通过三阶段标注保证质量。

多检索器句子检索: 联合BM25、Dense Retrieval和LCS三种检索器，取至少两个检索器命中的并集作为候选源句，top-k=10。
GPT-4o溯源标注: 基于候选源句进行细粒度标注，识别源句并分类为Quotation（引用）、Compression（压缩）、Inference（推理）、Others（其他如否定）四种关系。
人工溯源验证: 8名研究生花费约510小时审查标注，验证并补充GPT-4o遗漏的源句，平均每句花费$0.20。

提出13个指标体系，包括宏平均/微平均的Track-P/R/F1（源追踪）和Relation-P/R/F1（关系分类），以及综合Overall F1。支持直接提示和检索增强两种评估范式。