NexusSum: Hierarchical LLM Agents for Long-Form Narrative Summarization¶

会议: ACL 2025
arXiv: 2505.24575
代码: 无
领域: 文本生成
关键词: 长文本摘要, 叙事理解, 多Agent框架, 对话转换, 迭代压缩

一句话总结¶

提出 NexusSum，一个三阶段多Agent LLM框架（对话转描述→层次摘要→迭代压缩），无需微调即可处理书籍/电影/电视剧等长叙事文本的摘要生成，在 BookSum 上 BERTScore 提升达 30%。

研究背景与动机¶

领域现状：长篇叙事摘要（书籍、电影剧本、电视剧本）需要捕捉复杂情节线、角色关系演变和主题一致性，现有方法主要分三类：长上下文建模（如扩展窗口）、抽取-生成式流水线、多Agent框架。
现有痛点：即使 200K token 的上下文窗口，LLM 处理长叙事时仍会丢失信息；抽取式流水线会遗漏关键细节破坏叙事连贯性；零样本 LLM 在叙事摘要上表现远不如微调模型。
核心矛盾：叙事文本混合了描述性散文和多说话人对话，结构碎片化导致 LLM 难以产生连贯摘要；同时输出长度控制困难，要么过长要么遗漏关键事件。
本文要解决：(1) 如何在保持叙事结构和连贯性的同时进行长文本摘要？ (2) 对话到描述的转换如何改善一致性？ (3) 迭代压缩如何平衡长度控制和内容保留？
切入角度：观察到叙事文本中对话的碎片化是导致摘要不连贯的关键原因，可以先将对话统一转为第三人称叙述性散文，再分层处理。
核心idea：用三个专职 LLM Agent（预处理器→摘要器→压缩器）组成层次化流水线，通过对话转描述 + 场景分块 + 迭代压缩，在不微调的条件下实现高质量长叙事摘要。

方法详解¶

整体框架¶

NexusSum 是一个三阶段顺序流水线：输入为完整叙事文本（40K-160K tokens），经过 (1) Preprocessor Agent 将对话转为描述性散文，(2) Narrative Summarizer Agent 对预处理文本分块生成初始摘要，(3) Compressor Agent 迭代压缩至目标长度。三个阶段都使用 chunk-and-concat 策略，无需微调。

关键设计¶

Dialogue-to-Description Transformation (Preprocessor Agent \(P\)):
做什么：将叙事文本中的角色对话转换为结构化的第三人称叙述性散文
核心思路：将输入文本按每 8 个场景为一个 chunk 分割，即 \(N = n_1 \oplus n_2 \oplus \cdots \oplus n_k\)，然后 LLM 对每个 chunk 中的对话进行重写，保留说话人意图但统一为描述性格式，输出 \(N' = P(n_1) \oplus \cdots \oplus P(n_k)\)
设计动机：叙事中多说话人对话导致摘要碎片化，转为统一散文格式后 LLM 更容易捕捉语义连贯性。消融实验显示此步骤贡献 +2.45 BERTScore
Hierarchical Narrative Summarization (Summarizer Agent \(S\)):
做什么：对预处理后的文本生成初始摘要
核心思路：将 \(N'\) 按场景分块后，对每个 chunk 独立生成摘要，然后拼接：\(S_0 = S(n'_1) \oplus S(n'_2) \oplus \cdots \oplus S(n'_j)\)。与传统单次生成不同，层次化分块处理保留了长距离信息
设计动机：直接处理完整长文本会导致上下文丢失，分块后每个 Agent 只需处理可控长度的文本，保证信息保留率。贡献 +4.86 BERTScore，是三个模块中贡献最大的
Iterative Compression (Compressor Agent \(C\)):
做什么：将初始摘要迭代压缩至目标字数 \(\theta\)
核心思路：先将 \(S_0\) 按句子级别分块（chunk 大小为 \(\delta\) tokens），然后迭代压缩：\(S_i = C_i(s_{i-1,1}) \oplus \cdots \oplus C_i(s_{i-1,l_{i-1}})\)。如果 \(S_i\) 仍超过 \(\theta\) 则继续下一轮，最多 10 轮
设计动机：\(\delta\) 控制压缩比（越小的输入 chunk 产生越低的压缩率），通过多轮迭代实现精确的长度控制，LAR（Length Adherence Rate）接近 1.0

训练策略¶

完全无需训练或微调。使用 Mistral-Large-Instruct-2407 (123B) 作为基础模型，通过 vLLM 推理（temperature=0.3, top-p=1.0）。可通过 CoT 推理和 Few-Shot 学习进一步适配不同数据集风格。

实验关键数据¶

主实验¶

在四个长叙事摘要基准上的 BERTScore (F1) 对比：

数据集	NexusSum	之前 SOTA	提升
BookSum (书籍)	70.70	54.4 (CachED)	+30.0%
MovieSum (电影)	63.53	59.32 (HM-SR)	+7.1%
MENSA (剧本)	65.73	64.6 (CachED)	+1.7%
SummScreenFD (电视)	61.59	61.59 (CachED)	持平

消融实验¶

MENSA 数据集上各模块贡献（逐步累加）：

配置	BERTScore (F1)	提升
Zero-Shot baseline	54.81	-
+ Preprocessor (\(P\))	57.26	+2.45
+ Summarizer (\(S\))	62.12	+4.86
+ Compressor (\(C\)) = NexusSum	65.73	+1.83

关键发现¶

Summarizer Agent 贡献最大 (+4.86)，说明分块层次摘要是性能提升的核心
长度控制方面，NexusSum 的 LAR 在目标 900 和 1200 字时达到 0.99，远超 Zero-Shot 的 ~0.5
CoT + Few-Shot prompt 工程在 SummScreenFD 上额外带来 +5.0 BERTScore，说明框架适应性强
人类评估显示 NexusSum 在关键事件覆盖 (4.17) 和事实准确性 (4.0) 上优于 Zero-Shot，但可读性 (2.17 vs 4.17) 明显较差；加入 Rewrite Agent 后可读性恢复至 3.67

亮点与洞察¶

对话转描述的预处理思路很巧妙：叙事文本的碎片化问题本质上来源于对话格式，先统一格式再摘要是一个简单但有效的设计，可迁移到其他包含对话的文本处理任务
迭代压缩实现精确长度控制：通过 \(\delta\)（chunk 大小）和 \(\theta\)（目标字数）两个参数就能精确控制输出长度，这个策略对任何需要长度约束的生成任务都有参考价值
无需微调的多Agent协作：三个 Agent 各司其职，通过 prompt 工程即可适配不同数据集/领域，体现了 LLM Agent 框架的灵活性

局限性 / 可改进方向¶

可读性差距明显：人类评估中 NexusSum 的可读性只有 2.17/5，远低于 Zero-Shot 的 4.17，说明信息密度高的摘要不一定是人类偏好的
评估指标局限：BERTScore 提升 30% 但人类更喜欢 Zero-Shot，暴露了自动指标与人类偏好的脱节
计算成本高：需要 4 张 A100 GPU 运行 123B 模型，三阶段流水线的推理时间未充分讨论
人类评估规模太小：仅 3 位评估者对 3 部韩剧做评估，统计意义不足

评分¶

新颖性: ⭐⭐⭐ 对话转描述是新贡献，但多Agent分块摘要框架并不新
实验充分度: ⭐⭐⭐⭐ 四个数据集全面评估，有消融和人类评估，但人类评估规模过小
写作质量: ⭐⭐⭐⭐ 结构清晰，图表设计合理
价值: ⭐⭐⭐ 叙事摘要是较窄的应用领域，BERTScore 大幅提升但可读性不佳暴露了评估问题