BookCoref: Coreference Resolution at Book Scale¶

会议: ACL 2025
arXiv: 2507.12075
代码: GitHub
领域: NLP理解
关键词: 共指消解, 长文档, 书级别, 自动标注管线, 角色链接

一句话总结¶

提出首个书级别共指消解基准BookCoref，通过角色链接+LLM过滤+窗口扩展的自动标注管线，在50本完整小说上生成高质量银标注数据，平均文档长度超过20万tokens。

领域现状: 共指消解系统通常在短/中等长度文档上评估（OntoNotes平均467 tokens，LitBank截断到2000 tokens）。
现有痛点: 缺乏书级别基准，现有系统无法有效处理跨越数十万tokens的共指关系。LongtoNotes仅679 tokens/文档，MovieCoref仅9个文档。
核心矛盾: 人工标注长文本成本极高（需增量式阅读整本书），但自动标注系统（如Maverick）在长文本上性能急剧下降（Animal Farm仅36% CoNLL-F1）。
本文要解决什么: 设计可靠的自动标注管线，构建首个书级别共指消解训练和评估资源。
切入角度: 利用人物名单初始化共指簇，通过LLM过滤提高精度，再用窗口化CR模型扩展到代词和其他指称。
核心idea一句话: 通过角色链接→LLM过滤→窗口级CR扩展→分组窗口扩展四步管线，实现书级别的高质量自动共指标注。

BookCoref Pipeline四步流程：(1) 角色链接初始化显式提及簇；(2) LLM过滤去除错误链接；(3) 在小窗口中用CR模型扩展到代词等非显式提及；(4) 分组窗口二次扩展提高召回。

角色链接（Cluster Initialization）: 基于LitBank微调ReLiK实体链接系统，将文本中的人名提及链接到预定义角色列表。相比简单模式匹配，F1从29.2%提升到44.5%。
LLM过滤（Cluster Refinement）: 使用Qwen2-7B验证每个提及是否正确关联角色（基于上下文判断），精度提升+5.2%，减少误差传播。
窗口式CR扩展: 将书划分为1500词窗口，在每个窗口中用Maverick扩展角色簇（加入代词、名词短语等），然后按角色名合并窗口间的簇。
分组窗口扩展: 将10个连续窗口合并为一组，使用Maverick_xl在更大上下文中二次扩展，解决跨窗口边界的共指遗漏。

使用标准CR指标：MUC、B³、CEAFφ4和CoNLL-F1。在手工标注的BookCoref_gold（3本书：Animal Farm、Siddhartha、Pride and Prejudice）上评估管线和现有系统。