跳转至

TROVE: A Challenge for Fine-Grained Text Provenance via Source Sentence Tracing and Relationship Classification

会议: ACL 2025
arXiv: 2503.15289
代码: GitHub
领域: NLP理解
关键词: 文本溯源, 句子追踪, 关系分类, 长文档, 多文档

一句话总结

提出TROVE文本溯源挑战,将目标文本中每个句子追溯到源文档中的具体源句,并分类其细粒度关系(引用、压缩、推理等),覆盖多文档和长文档场景。

研究背景与动机

  1. 领域现状: LLM生成文本的可靠性和可追溯性受到关注,现有引用生成和事实验证工作主要聚焦于文档级或粗粒度溯源。
  2. 现有痛点: 高风险领域(法律、医疗)需要理解每句话的来源和生成方式,但缺乏句子级细粒度溯源数据集和评估方法。
  3. 核心矛盾: 现有工作仅关注单文档级别的来源识别,无法满足多文档、长文档场景下的精细溯源需求。
  4. 本文要解决什么: 提供一个涵盖多场景、多语言、多源长度的细粒度文本溯源数据集和评估框架。
  5. 切入角度: 基于LongBench、LooGLE、CRUD-RAG三个公开数据集构建溯源数据,结合多检索器和GPT-4o三阶段标注。
  6. 核心idea一句话: 文本溯源不仅要追踪源句,还要分类target-source之间的细粒度关系(引用/压缩/推理/其他)。

方法详解

整体框架

构建覆盖11种场景(QA和摘要)、中英双语、不同源文本长度(0-5k、5k-10k、10k+)的溯源数据集,通过三阶段标注保证质量。

关键设计

  1. 多检索器句子检索: 联合BM25、Dense Retrieval和LCS三种检索器,取至少两个检索器命中的并集作为候选源句,top-k=10。
  2. GPT-4o溯源标注: 基于候选源句进行细粒度标注,识别源句并分类为Quotation(引用)、Compression(压缩)、Inference(推理)、Others(其他如否定)四种关系。
  3. 人工溯源验证: 8名研究生花费约510小时审查标注,验证并补充GPT-4o遗漏的源句,平均每句花费$0.20。

评估策略

提出13个指标体系,包括宏平均/微平均的Track-P/R/F1(源追踪)和Relation-P/R/F1(关系分类),以及综合Overall F1。支持直接提示和检索增强两种评估范式。

实验关键数据

主实验(11个模型的Overall F1)

模型 直接提示 检索增强
GPT-4o - 最佳闭源
DeepSeek-V3 (671B) - 开源最佳
LLama3-8B 4.71 30.96
Qwen2.5-14B - 优于同系列7B
Vicuna-7B 7.08 22.74
ChatGLM-6B 0.02 3.47

消融实验(检索方法对比)

检索方法 Track F1 (Macro) Overall F1
LCS 29.41 14.67
BM25 35.70 17.81
Dense 28.28 14.10
Union (≥2) 46.17 22.82

关键发现

  • 检索增强对溯源至关重要,所有模型在检索增强下显著优于直接提示
  • 更大模型在复杂关系分类上表现更好
  • 闭源模型通常领先,但开源模型结合检索增强后展示显著潜力
  • 关系分类比源句追踪更具挑战性

亮点与洞察

  • 首次将文本溯源定义为句子级追踪+关系分类的双任务,粒度远超现有工作
  • 三阶段标注流程(多检索器→GPT-4o→人工)是实用的长文档标注方法论
  • 覆盖中英双语和多种源文本长度,评估全面

局限性 / 可改进方向

  • 数据集规模有限(约5000句),扩展到更多领域和语言值得探索
  • 源文本超过模型上下文长度时采用滑动窗口,可能丢失跨窗口信息
  • 关系类型定义较粗,可进一步细化(如推理可分为归纳/演绎)

相关工作与启发

  • 与引用生成、事实验证、grounded generation形成互补
  • 为RAG系统的可解释性和可追溯性提供新评估视角
  • 多检索器fusion策略对长文档任务具有普适价值
  • 数据标注中GPT-4o+人工审查的流程可作为长文档标注的通用范式
  • 溯源任务可扩展到代码生成和学术写作等场景

技术细节补充

  • 数据集分布:单文档中文平均196句/源文档,单文档英文平均637句/源文档
  • 每个目标句平均溯源句数:单文档中文7.04句,多文档英文1.97句
  • 标注一致性(Fleiss' Kappa):追踪0.60-0.74,关系分类0.48-0.62,GPT-4o修正0.44-0.70
  • 评估采用滑动窗口处理超长源文本:将输入切分为0-M, M-2M, 2M-3M等chunk独立处理后合并
  • 关系类型细分:Quotation(逐字/部分复制)、Compression(摘要/释义)、Inference(展开/泛化/特化)、Others(否定等)

评分

  • 新颖性: ⭐⭐⭐⭐ 任务定义新颖,但数据构建方法较常规
  • 实验充分度: ⭐⭐⭐⭐ 11个模型、多维度分析,但部分结果缺失
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,任务定义严谨
  • 价值: ⭐⭐⭐⭐ 为LLM生成内容的可追溯性提供重要基础