Literary Evidence Retrieval via Long-Context Language Models¶
会议: ACL 2025
arXiv: 2506.03090
代码: https://github.com/katherinethai/long_context_relic (有)
领域: LLM效率
关键词: 长上下文, 文学分析, 引用检索, 多模型评测, Benchmark
一句话总结¶
构建文学证据检索 benchmark,要求模型给定完整小说文本和文学评论摘录后生成缺失的引用,Gemini Pro 2.5 达 62.5% 准确率超过人类专家(55%),但最佳开源模型仅 29.1%,揭示了巨大能力差距。
研究背景与动机¶
- 领域现状:长上下文 LLM 的评测主要聚焦于简单检索(Needle-in-Haystack),缺乏需要深度理解的真实任务 benchmark。
- 核心 idea:文学分析中的引用检索需要全局叙事理解+细粒度文本匹配,是理想的长上下文能力测试。
方法详解¶
关键设计¶
- 数据集构建:从 RELiC 数据集中筛选 292 个高质量样本(自动过滤+人类专家审核)
- 任务设计:给定完整小说文本+含缺失引用的文学评论,模型需生成缺失的原始引用
实验关键数据¶
| 模型 | 准确率 |
|---|---|
| Gemini Pro 2.5 | 62.5% |
| 人类专家 | 55.0% |
| 最佳开源模型 | 29.1% |
亮点与洞察¶
- 真实场景的长上下文 benchmark:比 Needle-in-Haystack 实际得多,需要真正理解文本
- 开源 vs 闭源差距巨大 (29.1% vs 62.5%):说明长上下文理解能力仍是开源模型的重要短板
局限性 / 可改进方向¶
- 仅 292 个测试样本
- 仅限英语文学作品
评分¶
- 新颖性: ⭐⭐⭐⭐ 新颖的长上下文评测角度
- 实验充分度: ⭐⭐⭐⭐ 多模型对比+人类基线
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐⭐ 对长上下文研究有重要参考