Context-Aware Hierarchical Merging for Long Document Summarization¶

会议: ACL 2025 arXiv: 2502.00977 代码: https://github.com/Leonard907/CAHM (有) 领域: 文本生成 关键词: 长文档摘要, 层次合并, 上下文增强, 幻觉缓解, 忠实性

一句话总结¶

提出上下文感知的层次合并（CAHM）方法，通过在层次合并摘要过程中引入源文档的相关上下文（抽取/检索/引用三种方式），有效缓解 LLM 在超长文档（>100K tokens）摘要中的幻觉问题。

领域现状：超长文档（法律文书、小说等，通常超过 100K tokens）的摘要是 NLP 重要任务。层次合并（Hierarchical Merging）是处理超长输入的主流方法——将文档切块、逐块摘要、再递归合并。
现有痛点：层次合并在递归合并过程中会放大 LLM 的幻觉，因为中间摘要可能包含事实错误，而这些错误在后续合并中被反复引用和强化，导致最终摘要的忠实性下降。
核心矛盾：层次合并能处理超长输入，但与源文档的联系在递归过程中逐步断裂，导致忠实性降低。如何在保持可扩展性的同时维持与源文档的事实一致性？
本文要解决什么：在层次合并的中间阶段引入源文档上下文，增强中间摘要的事实基础，从而提高最终摘要的忠实性。
切入角度：从 RAG 思想出发，设计"引入上下文"（Incorporate Context, IC）模块，探索三种上下文获取方式和两种上下文使用方式的组合。
核心 idea 一句话：在层次合并的每一层引入源文档相关上下文，通过"替换"或"支持"两种策略增强中间摘要的忠实性。

在标准层次合并的基础上，每一层增加一个 IC（Incorporate Context）模块，同时获取抽象摘要和相关源文档上下文。在生成下一层摘要时，可以： - Support：将上下文作为支持证据，与上一层摘要一起输入 - Replace：用上下文直接替换上一层的抽象摘要

Extract（抽取式摘要）：使用 MemSum（基于强化学习训练的抽取式摘要器）从源文档块中选择关键句子。抽取式摘要天然选择与抽象摘要涵盖相同关键信息的句子，因此适合作为替代或支持上下文。在 Multi-LexSum 和 BookSum 上分别微调。
Retrieve（信息检索）：使用中间抽象摘要作为查询，通过 BM25 从源文档块中检索相关段落（每段约 100 词）。利用 LLM 蒸馏关键信息的能力生成简洁查询，再用检索增强事实性。
Cite（引用生成）：指示 LLM 在生成中间摘要时引用源文档段落编号（如 [1]、[2]），然后基于引用频率排序选择 top-k 段落作为相关上下文。无需额外检索或抽取步骤。
Support vs Replace：
Support：保留抽象摘要 + 附加上下文作为证据 → 信息密度高，覆盖面广
Replace：直接用源文档上下文替代抽象摘要 → 忠实性最高但可能丢失全局视野

方法	ROUGE	BERTScore	SummaC	AlignScore	PRisma
Zero-shot	23.6	60.7	43.5	77.6	41.5
HMerge	26.7	64.3	43.4	76.3	48.2
Extract-Support	27.6	64.1	43.2	79.0	49.7
Retrieve-Support	26.6	66.1	44.5	78.8	49.8
Cite-Replace	22.5	61.9	51.6	85.8	40.6
Retrieve-Replace	24.7	62.1	47.9	80.3	43.8

即使扩到 32K，Replace 仍不及 Retrieve-Support（46.1/38.4），说明抽象摘要不可或缺。

方法	Correct	Incorrect	Not Present
Extract-Support	72.7%	18.2%	9.1%
HMerge	59.1%	27.3%	13.6%
Zero-shot	60.0%	20.0%	20.0%
Extract-Replace	48.8%	23.3%	27.9%

Extract-Support 综合最优：在所有指标的平均排名最高，人工评估中 Correct 比率高出 HMerge 13.6 个百分点
Replace 在 input-based 指标上大幅提升：Cite-Replace 的 AlignScore 在 SuperSummary 上比基线高约 10 分，因为直接使用源文档片段
Support 在 reference-based 指标上显著更好：抽象摘要保证了信息覆盖面，避免过度关注局部细节
Cite 方法效果最弱：LLM 准确生成引用是困难的，需要理解和执行复杂指令
Replace 容易"跑偏"：手动检查发现 Replace 摘要倾向强调边缘细节（对话、场景描写），而非关键事件
70B vs 8B：70B 在 reference-based 指标上有中等提升，但 input-based 指标改进不大
书籍摘要比法律摘要更难：SuperSummary 上所有方法得分一致低于 Multi-LexSum

将 RAG 思想优雅地嵌入层次合并框架，设计空间清晰：3 种上下文获取 × 2 种使用方式 = 6 种变体
人工评估揭示了自动指标的偏向性：input-based 指标偏爱 Replace，reference-based 指标偏爱 Support，实际忠实性以 Support 更优
核心洞察：抽象摘要的信息密度不可替代——同样长度下，抽象摘要覆盖更多关键事件，而源文档片段对单一事件过度展开
MemSum + BM25 的轻量级方案在不增加训练成本的情况下带来一致的改进