NexusSum: Hierarchical LLM Agents for Long-Form Narrative Summarization¶
会议: ACL 2025
arXiv: 2505.24575
代码: 无
领域: 文本生成
关键词: 长文本摘要, 叙事理解, 多Agent框架, 对话转换, 迭代压缩
一句话总结¶
提出 NexusSum,一个三阶段多Agent LLM框架(对话转描述→层次摘要→迭代压缩),无需微调即可处理书籍/电影/电视剧等长叙事文本的摘要生成,在 BookSum 上 BERTScore 提升达 30%。
研究背景与动机¶
- 领域现状:长篇叙事摘要(书籍、电影剧本、电视剧本)需要捕捉复杂情节线、角色关系演变和主题一致性,现有方法主要分三类:长上下文建模(如扩展窗口)、抽取-生成式流水线、多Agent框架。
- 现有痛点:即使 200K token 的上下文窗口,LLM 处理长叙事时仍会丢失信息;抽取式流水线会遗漏关键细节破坏叙事连贯性;零样本 LLM 在叙事摘要上表现远不如微调模型。
- 核心矛盾:叙事文本混合了描述性散文和多说话人对话,结构碎片化导致 LLM 难以产生连贯摘要;同时输出长度控制困难,要么过长要么遗漏关键事件。
- 本文要解决:(1) 如何在保持叙事结构和连贯性的同时进行长文本摘要? (2) 对话到描述的转换如何改善一致性? (3) 迭代压缩如何平衡长度控制和内容保留?
- 切入角度:观察到叙事文本中对话的碎片化是导致摘要不连贯的关键原因,可以先将对话统一转为第三人称叙述性散文,再分层处理。
- 核心idea:用三个专职 LLM Agent(预处理器→摘要器→压缩器)组成层次化流水线,通过对话转描述 + 场景分块 + 迭代压缩,在不微调的条件下实现高质量长叙事摘要。
方法详解¶
整体框架¶
NexusSum 是一个三阶段顺序流水线:输入为完整叙事文本(40K-160K tokens),经过 (1) Preprocessor Agent 将对话转为描述性散文,(2) Narrative Summarizer Agent 对预处理文本分块生成初始摘要,(3) Compressor Agent 迭代压缩至目标长度。三个阶段都使用 chunk-and-concat 策略,无需微调。
关键设计¶
- Dialogue-to-Description Transformation (Preprocessor Agent \(P\)):
- 做什么:将叙事文本中的角色对话转换为结构化的第三人称叙述性散文
- 核心思路:将输入文本按每 8 个场景为一个 chunk 分割,即 \(N = n_1 \oplus n_2 \oplus \cdots \oplus n_k\),然后 LLM 对每个 chunk 中的对话进行重写,保留说话人意图但统一为描述性格式,输出 \(N' = P(n_1) \oplus \cdots \oplus P(n_k)\)
-
设计动机:叙事中多说话人对话导致摘要碎片化,转为统一散文格式后 LLM 更容易捕捉语义连贯性。消融实验显示此步骤贡献 +2.45 BERTScore
-
Hierarchical Narrative Summarization (Summarizer Agent \(S\)):
- 做什么:对预处理后的文本生成初始摘要
- 核心思路:将 \(N'\) 按场景分块后,对每个 chunk 独立生成摘要,然后拼接:\(S_0 = S(n'_1) \oplus S(n'_2) \oplus \cdots \oplus S(n'_j)\)。与传统单次生成不同,层次化分块处理保留了长距离信息
-
设计动机:直接处理完整长文本会导致上下文丢失,分块后每个 Agent 只需处理可控长度的文本,保证信息保留率。贡献 +4.86 BERTScore,是三个模块中贡献最大的
-
Iterative Compression (Compressor Agent \(C\)):
- 做什么:将初始摘要迭代压缩至目标字数 \(\theta\)
- 核心思路:先将 \(S_0\) 按句子级别分块(chunk 大小为 \(\delta\) tokens),然后迭代压缩:\(S_i = C_i(s_{i-1,1}) \oplus \cdots \oplus C_i(s_{i-1,l_{i-1}})\)。如果 \(S_i\) 仍超过 \(\theta\) 则继续下一轮,最多 10 轮
- 设计动机:\(\delta\) 控制压缩比(越小的输入 chunk 产生越低的压缩率),通过多轮迭代实现精确的长度控制,LAR(Length Adherence Rate)接近 1.0
训练策略¶
完全无需训练或微调。使用 Mistral-Large-Instruct-2407 (123B) 作为基础模型,通过 vLLM 推理(temperature=0.3, top-p=1.0)。可通过 CoT 推理和 Few-Shot 学习进一步适配不同数据集风格。
实验关键数据¶
主实验¶
在四个长叙事摘要基准上的 BERTScore (F1) 对比:
| 数据集 | NexusSum | 之前 SOTA | 提升 |
|---|---|---|---|
| BookSum (书籍) | 70.70 | 54.4 (CachED) | +30.0% |
| MovieSum (电影) | 63.53 | 59.32 (HM-SR) | +7.1% |
| MENSA (剧本) | 65.73 | 64.6 (CachED) | +1.7% |
| SummScreenFD (电视) | 61.59 | 61.59 (CachED) | 持平 |
消融实验¶
MENSA 数据集上各模块贡献(逐步累加):
| 配置 | BERTScore (F1) | 提升 |
|---|---|---|
| Zero-Shot baseline | 54.81 | - |
| + Preprocessor (\(P\)) | 57.26 | +2.45 |
| + Summarizer (\(S\)) | 62.12 | +4.86 |
| + Compressor (\(C\)) = NexusSum | 65.73 | +1.83 |
关键发现¶
- Summarizer Agent 贡献最大 (+4.86),说明分块层次摘要是性能提升的核心
- 长度控制方面,NexusSum 的 LAR 在目标 900 和 1200 字时达到 0.99,远超 Zero-Shot 的 ~0.5
- CoT + Few-Shot prompt 工程在 SummScreenFD 上额外带来 +5.0 BERTScore,说明框架适应性强
- 人类评估显示 NexusSum 在关键事件覆盖 (4.17) 和事实准确性 (4.0) 上优于 Zero-Shot,但可读性 (2.17 vs 4.17) 明显较差;加入 Rewrite Agent 后可读性恢复至 3.67
亮点与洞察¶
- 对话转描述的预处理思路很巧妙:叙事文本的碎片化问题本质上来源于对话格式,先统一格式再摘要是一个简单但有效的设计,可迁移到其他包含对话的文本处理任务
- 迭代压缩实现精确长度控制:通过 \(\delta\)(chunk 大小)和 \(\theta\)(目标字数)两个参数就能精确控制输出长度,这个策略对任何需要长度约束的生成任务都有参考价值
- 无需微调的多Agent协作:三个 Agent 各司其职,通过 prompt 工程即可适配不同数据集/领域,体现了 LLM Agent 框架的灵活性
局限性 / 可改进方向¶
- 可读性差距明显:人类评估中 NexusSum 的可读性只有 2.17/5,远低于 Zero-Shot 的 4.17,说明信息密度高的摘要不一定是人类偏好的
- 评估指标局限:BERTScore 提升 30% 但人类更喜欢 Zero-Shot,暴露了自动指标与人类偏好的脱节
- 计算成本高:需要 4 张 A100 GPU 运行 123B 模型,三阶段流水线的推理时间未充分讨论
- 人类评估规模太小:仅 3 位评估者对 3 部韩剧做评估,统计意义不足
相关工作与启发¶
- vs CoA (Chain of Agents):CoA 是通用多Agent摘要框架,NexusSum 针对叙事文本增加了对话转描述预处理,在 ROUGE 上超出 CoA 4.6%
- vs CachED:CachED 用梯度缓存做高效微调,NexusSum 完全无需训练但在 BookSum 上大幅领先,说明在叙事领域,领域特定的预处理可能比模型微调更有效
- vs HM-SR:HM-SR 做层次化合并+精炼,但缺乏精确的长度控制,NexusSum 的迭代压缩机制是核心差异化优势
评分¶
- 新颖性: ⭐⭐⭐ 对话转描述是新贡献,但多Agent分块摘要框架并不新
- 实验充分度: ⭐⭐⭐⭐ 四个数据集全面评估,有消融和人类评估,但人类评估规模过小
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图表设计合理
- 价值: ⭐⭐⭐ 叙事摘要是较窄的应用领域,BERTScore 大幅提升但可读性不佳暴露了评估问题