跳转至

📚 AI Paper Notes

Literary Evidence Retrieval via Long-Context Language Models

Literary Evidence Retrieval via Long-Context Language Models¶

会议: ACL 2025
arXiv: 2506.03090
代码: https://github.com/katherinethai/long_context_relic (有)
领域: LLM效率
关键词: 长上下文, 文学分析, 引用检索, 多模型评测, Benchmark

一句话总结¶

构建文学证据检索 benchmark，要求模型给定完整小说文本和文学评论摘录后生成缺失的引用，Gemini Pro 2.5 达 62.5% 准确率超过人类专家(55%)，但最佳开源模型仅 29.1%，揭示了巨大能力差距。

研究背景与动机¶

领域现状：长上下文 LLM 的评测主要聚焦于简单检索（Needle-in-Haystack），缺乏需要深度理解的真实任务 benchmark。
核心 idea：文学分析中的引用检索需要全局叙事理解+细粒度文本匹配，是理想的长上下文能力测试。

方法详解¶

关键设计¶

数据集构建：从 RELiC 数据集中筛选 292 个高质量样本（自动过滤+人类专家审核）
任务设计：给定完整小说文本+含缺失引用的文学评论，模型需生成缺失的原始引用

实验关键数据¶

模型	准确率
Gemini Pro 2.5	62.5%
人类专家	55.0%
最佳开源模型	29.1%

亮点与洞察¶

真实场景的长上下文 benchmark：比 Needle-in-Haystack 实际得多，需要真正理解文本
开源 vs 闭源差距巨大 (29.1% vs 62.5%)：说明长上下文理解能力仍是开源模型的重要短板

局限性 / 可改进方向¶

仅 292 个测试样本
仅限英语文学作品

评分¶

新颖性: ⭐⭐⭐⭐ 新颖的长上下文评测角度
实验充分度: ⭐⭐⭐⭐ 多模型对比+人类基线
写作质量: ⭐⭐⭐⭐ 清晰
价值: ⭐⭐⭐⭐ 对长上下文研究有重要参考