跳转至

📚 AI Paper Notes

Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs

Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs¶

会议: ACL 2025
arXiv: 2410.11001
代码: https://github.com/ulab-uiuc/GoR
领域: 文本生成
关键词: RAG, 图神经网络, 长文本摘要, 历史响应利用, BERTScore目标

一句话总结¶

提出 Graph of Records（GoR），将 LLM 历史响应与检索文本块构建为图结构，用 GNN 学习节点间的语义和逻辑关联，配合 BERTScore 自监督训练目标，在四个长文本全局摘要数据集上比检索基线提升 8-19%（ROUGE 指标）。

研究背景与动机¶

领域现状：RAG 在长文本摘要中通过检索相关文本块来替代扩展上下文窗口。但每次查询和生成后，LLM 的历史响应被直接丢弃。
现有痛点：(a) 历史响应中包含有价值的任务相关信息但未被利用；(b) 文本块之间存在复杂的逻辑和语义关联（如因果、时序），但标准检索只关注与查询的语义相似度，无法捕获块间关系。
核心矛盾：全局摘要需要综合整个文档的信息，但 RAG 每次只检索局部文本块——如何从局部检索走向全局理解？
本文要解决什么？ 利用历史响应作为"记录"构建图结构，通过图学习捕获全局关联，增强 RAG 的长文本摘要能力。
切入角度：将检索-生成过程的产物（历史响应+对应文本块）组织为图——检索块和响应是节点，检索关系是边。用 GNN 在图上学习更好的节点表示。
核心idea一句话：用图结构组织 RAG 的历史记录，让 GNN 学到超越语义相似度的全局关联。

方法详解¶

整体框架¶

(1) 图构建：对长文档的文本块模拟多个查询，用 RAG 生成历史响应，构建文本块-响应的二部图；(2) 自监督训练：用 GNN 学习节点嵌入，以 BERTScore 为基础的排序目标优化；(3) 检索和摘要：新查询到来时，用学到的节点嵌入检索最相关的块和历史响应。

关键设计¶

图构建（Graph Construction）:
做什么：将文本块和历史响应组织为图
核心思路：用 LLM 对任意文本块生成模拟查询，每次检索 top-K 块并生成响应，在检索块和响应之间建边
设计动机：边编码了"哪些文本块一起被用来回答同一个问题"——这种共现关系蕴含逻辑关联
BERTScore 自监督目标:
做什么：优化 GNN 节点嵌入
核心思路：对模拟查询，用 BERTScore 计算每个节点与该查询源文本块的语义相似度作为排名标签。用对比损失+配对排序损失优化节点嵌入
设计动机：全局摘要没有局部标注标签，BERTScore 提供了一种不精确但有用的间接监督信号
图增强检索:
做什么：用学到的节点嵌入进行检索
核心思路：新查询到来时，用查询嵌入与图节点嵌入做相似度匹配，检索最相关的文本块和历史响应
设计动机：GNN 聚合了邻居信息，节点嵌入包含了超越局部语义的全局上下文

损失函数 / 训练策略¶

对比损失 + 配对排序损失
GNN 在文本块-响应图上训练
LLM 输入 ~1.5K token（6×256 块）

实验关键数据¶

主实验¶

数据集	最佳检索基线(R-L)	GoR(R-L)	提升
WCEP	~0.21	~0.24	+15%
QMSum	~0.18	~0.20	+11%
BookSum	-	最佳	-
AcademicEval	-	最佳	-

消融实验¶

配置	效果	说明
w/o GNN	退化到普通检索	GNN 的图学习是核心
w/o 历史响应节点	性能下降	历史响应提供了有价值的信息
w/o BERTScore 目标	训练不收敛	自监督信号是必要的
w/o 排序损失	性能略降	排序+对比都重要

关键发现¶

GoR 一致优于所有稀疏/稠密/混合检索基线——图结构有效捕获块间关联
LLM 评估（DeepSeek-R1 as judge）也确认 GoR 的摘要更全面、多样、信息丰富
GNN 是最关键组件——去掉后退化到普通检索水平
推理效率可接受——GNN 推理开销远小于 LLM 生成开销

亮点与洞察¶

"历史响应是资产而非废弃物"的洞察有价值——RAG 系统每天产生大量响应，GoR 展示了如何回收利用这些被忽视的信息。
用图结构组织 RAG 记录是自然且有效的——捕获了标准检索无法捕获的块间逻辑和语义关联（如因果、时序、共现）。
BERTScore 自监督目标巧妙解决了全局摘要缺乏局部标注标签的"鸡生蛋"问题——用间接信号替代不存在的直接标签。
GNN 的邻居聚合天然适合捕获文本块之间的远程关联——比基于相似度的re-ranking能发现更深层的关係。
75%+ 的记忆利用率远超传统 RAG 的 30%——说明图结构的信息组织效率更高。

局限性 / 可改进方向¶

图构建需要大量模拟查询和 LLM 调用，初始化成本高——对每个文档需要生成多个查询和历史响应
GNN 在超大文档（如整本书数万个块）上的扩展性可能成为瓶颈——节点数增加导致图卷积计算量剧增
仅在摘要任务上验证，QA 等其他 RAG 任务效果未知
BERTScore 作为间接监督信号可能对某些类型的文本不够准确
未探索动态图更新——当新的查询和响应产生时如何增量更新图结构

相关工作与启发¶

vs 标准 RAG: 不利用历史响应；GoR 将历史变为可学习的图结构
vs GraphRAG (Microsoft): GraphRAG 构建实体关系图；GoR 构建检索记录图，角度不同

评分¶

新颖性: ⭐⭐⭐⭐ 图结构+历史响应利用新颖
实验充分度: ⭐⭐⭐⭐ 四数据集+12基线+消融+效率分析
写作质量: ⭐⭐⭐⭐ 方法描述清晰
价值: ⭐⭐⭐⭐ 对长文本 RAG 的有价值改进