跳转至

NexusSum: Hierarchical LLM Agents for Long-Form Narrative Summarization

会议: ACL 2025
arXiv: 2505.24575
代码: 无
领域: 文本生成
关键词: 长文本摘要, 叙事理解, 多Agent框架, 对话转换, 迭代压缩

一句话总结

提出 NexusSum,一个三阶段多Agent LLM框架(对话转描述→层次摘要→迭代压缩),无需微调即可处理书籍/电影/电视剧等长叙事文本的摘要生成,在 BookSum 上 BERTScore 提升达 30%。

研究背景与动机

  1. 领域现状:长篇叙事摘要(书籍、电影剧本、电视剧本)需要捕捉复杂情节线、角色关系演变和主题一致性,现有方法主要分三类:长上下文建模(如扩展窗口)、抽取-生成式流水线、多Agent框架。
  2. 现有痛点:即使 200K token 的上下文窗口,LLM 处理长叙事时仍会丢失信息;抽取式流水线会遗漏关键细节破坏叙事连贯性;零样本 LLM 在叙事摘要上表现远不如微调模型。
  3. 核心矛盾:叙事文本混合了描述性散文和多说话人对话,结构碎片化导致 LLM 难以产生连贯摘要;同时输出长度控制困难,要么过长要么遗漏关键事件。
  4. 本文要解决:(1) 如何在保持叙事结构和连贯性的同时进行长文本摘要? (2) 对话到描述的转换如何改善一致性? (3) 迭代压缩如何平衡长度控制和内容保留?
  5. 切入角度:观察到叙事文本中对话的碎片化是导致摘要不连贯的关键原因,可以先将对话统一转为第三人称叙述性散文,再分层处理。
  6. 核心idea:用三个专职 LLM Agent(预处理器→摘要器→压缩器)组成层次化流水线,通过对话转描述 + 场景分块 + 迭代压缩,在不微调的条件下实现高质量长叙事摘要。

方法详解

整体框架

NexusSum 是一个三阶段顺序流水线:输入为完整叙事文本(40K-160K tokens),经过 (1) Preprocessor Agent 将对话转为描述性散文,(2) Narrative Summarizer Agent 对预处理文本分块生成初始摘要,(3) Compressor Agent 迭代压缩至目标长度。三个阶段都使用 chunk-and-concat 策略,无需微调。

关键设计

  1. Dialogue-to-Description Transformation (Preprocessor Agent \(P\)):
  2. 做什么:将叙事文本中的角色对话转换为结构化的第三人称叙述性散文
  3. 核心思路:将输入文本按每 8 个场景为一个 chunk 分割,即 \(N = n_1 \oplus n_2 \oplus \cdots \oplus n_k\),然后 LLM 对每个 chunk 中的对话进行重写,保留说话人意图但统一为描述性格式,输出 \(N' = P(n_1) \oplus \cdots \oplus P(n_k)\)
  4. 设计动机:叙事中多说话人对话导致摘要碎片化,转为统一散文格式后 LLM 更容易捕捉语义连贯性。消融实验显示此步骤贡献 +2.45 BERTScore

  5. Hierarchical Narrative Summarization (Summarizer Agent \(S\)):

  6. 做什么:对预处理后的文本生成初始摘要
  7. 核心思路:将 \(N'\) 按场景分块后,对每个 chunk 独立生成摘要,然后拼接:\(S_0 = S(n'_1) \oplus S(n'_2) \oplus \cdots \oplus S(n'_j)\)。与传统单次生成不同,层次化分块处理保留了长距离信息
  8. 设计动机:直接处理完整长文本会导致上下文丢失,分块后每个 Agent 只需处理可控长度的文本,保证信息保留率。贡献 +4.86 BERTScore,是三个模块中贡献最大的

  9. Iterative Compression (Compressor Agent \(C\)):

  10. 做什么:将初始摘要迭代压缩至目标字数 \(\theta\)
  11. 核心思路:先将 \(S_0\) 按句子级别分块(chunk 大小为 \(\delta\) tokens),然后迭代压缩:\(S_i = C_i(s_{i-1,1}) \oplus \cdots \oplus C_i(s_{i-1,l_{i-1}})\)。如果 \(S_i\) 仍超过 \(\theta\) 则继续下一轮,最多 10 轮
  12. 设计动机:\(\delta\) 控制压缩比(越小的输入 chunk 产生越低的压缩率),通过多轮迭代实现精确的长度控制,LAR(Length Adherence Rate)接近 1.0

训练策略

完全无需训练或微调。使用 Mistral-Large-Instruct-2407 (123B) 作为基础模型,通过 vLLM 推理(temperature=0.3, top-p=1.0)。可通过 CoT 推理和 Few-Shot 学习进一步适配不同数据集风格。

实验关键数据

主实验

在四个长叙事摘要基准上的 BERTScore (F1) 对比:

数据集 NexusSum 之前 SOTA 提升
BookSum (书籍) 70.70 54.4 (CachED) +30.0%
MovieSum (电影) 63.53 59.32 (HM-SR) +7.1%
MENSA (剧本) 65.73 64.6 (CachED) +1.7%
SummScreenFD (电视) 61.59 61.59 (CachED) 持平

消融实验

MENSA 数据集上各模块贡献(逐步累加):

配置 BERTScore (F1) 提升
Zero-Shot baseline 54.81 -
+ Preprocessor (\(P\)) 57.26 +2.45
+ Summarizer (\(S\)) 62.12 +4.86
+ Compressor (\(C\)) = NexusSum 65.73 +1.83

关键发现

  • Summarizer Agent 贡献最大 (+4.86),说明分块层次摘要是性能提升的核心
  • 长度控制方面,NexusSum 的 LAR 在目标 900 和 1200 字时达到 0.99,远超 Zero-Shot 的 ~0.5
  • CoT + Few-Shot prompt 工程在 SummScreenFD 上额外带来 +5.0 BERTScore,说明框架适应性强
  • 人类评估显示 NexusSum 在关键事件覆盖 (4.17) 和事实准确性 (4.0) 上优于 Zero-Shot,但可读性 (2.17 vs 4.17) 明显较差;加入 Rewrite Agent 后可读性恢复至 3.67

亮点与洞察

  • 对话转描述的预处理思路很巧妙:叙事文本的碎片化问题本质上来源于对话格式,先统一格式再摘要是一个简单但有效的设计,可迁移到其他包含对话的文本处理任务
  • 迭代压缩实现精确长度控制:通过 \(\delta\)(chunk 大小)和 \(\theta\)(目标字数)两个参数就能精确控制输出长度,这个策略对任何需要长度约束的生成任务都有参考价值
  • 无需微调的多Agent协作:三个 Agent 各司其职,通过 prompt 工程即可适配不同数据集/领域,体现了 LLM Agent 框架的灵活性

局限性 / 可改进方向

  • 可读性差距明显:人类评估中 NexusSum 的可读性只有 2.17/5,远低于 Zero-Shot 的 4.17,说明信息密度高的摘要不一定是人类偏好的
  • 评估指标局限:BERTScore 提升 30% 但人类更喜欢 Zero-Shot,暴露了自动指标与人类偏好的脱节
  • 计算成本高:需要 4 张 A100 GPU 运行 123B 模型,三阶段流水线的推理时间未充分讨论
  • 人类评估规模太小:仅 3 位评估者对 3 部韩剧做评估,统计意义不足

相关工作与启发

  • vs CoA (Chain of Agents):CoA 是通用多Agent摘要框架,NexusSum 针对叙事文本增加了对话转描述预处理,在 ROUGE 上超出 CoA 4.6%
  • vs CachED:CachED 用梯度缓存做高效微调,NexusSum 完全无需训练但在 BookSum 上大幅领先,说明在叙事领域,领域特定的预处理可能比模型微调更有效
  • vs HM-SR:HM-SR 做层次化合并+精炼,但缺乏精确的长度控制,NexusSum 的迭代压缩机制是核心差异化优势

评分

  • 新颖性: ⭐⭐⭐ 对话转描述是新贡献,但多Agent分块摘要框架并不新
  • 实验充分度: ⭐⭐⭐⭐ 四个数据集全面评估,有消融和人类评估,但人类评估规模过小
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表设计合理
  • 价值: ⭐⭐⭐ 叙事摘要是较窄的应用领域,BERTScore 大幅提升但可读性不佳暴露了评估问题