BookCoref: Coreference Resolution at Book Scale¶
会议: ACL 2025
arXiv: 2507.12075
代码: GitHub
领域: NLP理解
关键词: 共指消解, 长文档, 书级别, 自动标注管线, 角色链接
一句话总结¶
提出首个书级别共指消解基准BookCoref,通过角色链接+LLM过滤+窗口扩展的自动标注管线,在50本完整小说上生成高质量银标注数据,平均文档长度超过20万tokens。
研究背景与动机¶
- 领域现状: 共指消解系统通常在短/中等长度文档上评估(OntoNotes平均467 tokens,LitBank截断到2000 tokens)。
- 现有痛点: 缺乏书级别基准,现有系统无法有效处理跨越数十万tokens的共指关系。LongtoNotes仅679 tokens/文档,MovieCoref仅9个文档。
- 核心矛盾: 人工标注长文本成本极高(需增量式阅读整本书),但自动标注系统(如Maverick)在长文本上性能急剧下降(Animal Farm仅36% CoNLL-F1)。
- 本文要解决什么: 设计可靠的自动标注管线,构建首个书级别共指消解训练和评估资源。
- 切入角度: 利用人物名单初始化共指簇,通过LLM过滤提高精度,再用窗口化CR模型扩展到代词和其他指称。
- 核心idea一句话: 通过角色链接→LLM过滤→窗口级CR扩展→分组窗口扩展四步管线,实现书级别的高质量自动共指标注。
方法详解¶
整体框架¶
BookCoref Pipeline四步流程:(1) 角色链接初始化显式提及簇;(2) LLM过滤去除错误链接;(3) 在小窗口中用CR模型扩展到代词等非显式提及;(4) 分组窗口二次扩展提高召回。
关键设计¶
- 角色链接(Cluster Initialization): 基于LitBank微调ReLiK实体链接系统,将文本中的人名提及链接到预定义角色列表。相比简单模式匹配,F1从29.2%提升到44.5%。
- LLM过滤(Cluster Refinement): 使用Qwen2-7B验证每个提及是否正确关联角色(基于上下文判断),精度提升+5.2%,减少误差传播。
- 窗口式CR扩展: 将书划分为1500词窗口,在每个窗口中用Maverick扩展角色簇(加入代词、名词短语等),然后按角色名合并窗口间的簇。
- 分组窗口扩展: 将10个连续窗口合并为一组,使用Maverick_xl在更大上下文中二次扩展,解决跨窗口边界的共指遗漏。
评估策略¶
使用标准CR指标:MUC、B³、CEAFφ4和CoNLL-F1。在手工标注的BookCoref_gold(3本书:Animal Farm、Siddhartha、Pride and Prejudice)上评估管线和现有系统。
实验关键数据¶
管线评估(BookCoref_gold)¶
| 管线步骤 | 角色链接F1 | CoNLL-F1 |
|---|---|---|
| Pattern Matching | 29.2 | 17.9 |
| Character Linking | 44.5 | 34.2 |
| + LLM Filtering | 43.5 | 33.9 |
| + Window CR | 84.7 | 77.7 |
| + Grouping Step | 86.3 | 80.5 |
现有系统对比(BookCoref_gold)¶
| 系统 | CoNLL-F1 (全书) | CoNLL-F1 (分割版) |
|---|---|---|
| BookNLP | 42.2 | 50.6 |
| Longdoc | 46.6 | 61.2 |
| Dual cache | 42.5 | 64.8 |
| Maverick_xl | 41.2 | - |
关键发现¶
- 管线达到80.5 CoNLL-F1,MUC 93.3接近人工标注一致性(96.1)
- 现有系统在全书设置下性能远低于分割版(差距高达20+ CoNLL-F1)
- BookCoref_silver包含10.8M tokens、968k mentions,规模远超OntoNotes
- 书级别的平均共指链距离达73,432 tokens,前所未有
亮点与洞察¶
- 管线设计精巧:高精度初始化+逐步扩展,避免误差传播
- LLM作为过滤器(而非生成器)是一个实用范式
- 角色链接→CR扩展的两阶段思路可推广到其他长文档NER/CR任务
局限性 / 可改进方向¶
- 仅标注角色(人物)的共指,不覆盖物品、地点等实体
- Gold标注仅3本书,评估集规模有限
- Pipeline中窗口边界可能导致跨窗口共指遗漏(分组步骤只部分缓解)
- 仅覆盖英语经典文学作品
相关工作与启发¶
- 与LitBank、MovieCoref互补,将CR推向真正的书级别
- 自动标注管线的方法论可用于构建其他长文档NLP资源
- 增量式CR系统(Longdoc、Dual cache)需要在BookCoref上进一步改进
- Pipeline的"高精度初始化→逐步扩展"策略对其他长文档标注任务有借鉴意义
技术细节补充¶
- 底层资源:Project Gutenberg全文 + Wikidata角色名 + LiSCU角色信息,共53本书平均27个角色
- 窗口大小:1500词(接近Maverick训练配置),分组大小G=10
- 标注工作量:3位专家标注约120小时,覆盖194,280词
- 标注者一致性:MUC score 96.1%,与LitBank (95.5%)和OntoNotes (83.0%)相比更高
- BookCoref_silver规模:50本书、10.8M tokens、968k mentions,是OntoNotes的6.75倍
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个书级别CR基准,管线设计新颖实用
- 实验充分度: ⭐⭐⭐⭐ 管线评估详尽,但现有系统对比略少
- 写作质量: ⭐⭐⭐⭐⭐ 论述清晰,方法与评估紧密结合
- 价值: ⭐⭐⭐⭐⭐ 填补书级别CR的资源空白,具有长期研究价值