跳转至

Literary Evidence Retrieval via Long-Context Language Models

会议: ACL 2025
arXiv: 2506.03090
代码: https://github.com/katherinethai/long_context_relic (有)
领域: LLM效率
关键词: 长上下文, 文学分析, 引用检索, 多模型评测, Benchmark

一句话总结

构建文学证据检索 benchmark,要求模型给定完整小说文本和文学评论摘录后生成缺失的引用,Gemini Pro 2.5 达 62.5% 准确率超过人类专家(55%),但最佳开源模型仅 29.1%,揭示了巨大能力差距。

研究背景与动机

  1. 领域现状:长上下文 LLM 的评测主要聚焦于简单检索(Needle-in-Haystack),缺乏需要深度理解的真实任务 benchmark。
  2. 核心 idea:文学分析中的引用检索需要全局叙事理解+细粒度文本匹配,是理想的长上下文能力测试。

方法详解

关键设计

  1. 数据集构建:从 RELiC 数据集中筛选 292 个高质量样本(自动过滤+人类专家审核)
  2. 任务设计:给定完整小说文本+含缺失引用的文学评论,模型需生成缺失的原始引用

实验关键数据

模型 准确率
Gemini Pro 2.5 62.5%
人类专家 55.0%
最佳开源模型 29.1%

亮点与洞察

  • 真实场景的长上下文 benchmark:比 Needle-in-Haystack 实际得多,需要真正理解文本
  • 开源 vs 闭源差距巨大 (29.1% vs 62.5%):说明长上下文理解能力仍是开源模型的重要短板

局限性 / 可改进方向

  • 仅 292 个测试样本
  • 仅限英语文学作品

评分

  • 新颖性: ⭐⭐⭐⭐ 新颖的长上下文评测角度
  • 实验充分度: ⭐⭐⭐⭐ 多模型对比+人类基线
  • 写作质量: ⭐⭐⭐⭐ 清晰
  • 价值: ⭐⭐⭐⭐ 对长上下文研究有重要参考