Graph of Records: Boosting Retrieval Augmented Generation for Long-context Summarization with Graphs¶
会议: ACL 2025
arXiv: 2410.11001
代码: https://github.com/ulab-uiuc/GoR
领域: 文本生成
关键词: RAG, 图神经网络, 长文本摘要, 历史响应利用, BERTScore目标
一句话总结¶
提出 Graph of Records(GoR),将 LLM 历史响应与检索文本块构建为图结构,用 GNN 学习节点间的语义和逻辑关联,配合 BERTScore 自监督训练目标,在四个长文本全局摘要数据集上比检索基线提升 8-19%(ROUGE 指标)。
研究背景与动机¶
- 领域现状:RAG 在长文本摘要中通过检索相关文本块来替代扩展上下文窗口。但每次查询和生成后,LLM 的历史响应被直接丢弃。
- 现有痛点:(a) 历史响应中包含有价值的任务相关信息但未被利用;(b) 文本块之间存在复杂的逻辑和语义关联(如因果、时序),但标准检索只关注与查询的语义相似度,无法捕获块间关系。
- 核心矛盾:全局摘要需要综合整个文档的信息,但 RAG 每次只检索局部文本块——如何从局部检索走向全局理解?
- 本文要解决什么? 利用历史响应作为"记录"构建图结构,通过图学习捕获全局关联,增强 RAG 的长文本摘要能力。
- 切入角度:将检索-生成过程的产物(历史响应+对应文本块)组织为图——检索块和响应是节点,检索关系是边。用 GNN 在图上学习更好的节点表示。
- 核心idea一句话:用图结构组织 RAG 的历史记录,让 GNN 学到超越语义相似度的全局关联。
方法详解¶
整体框架¶
(1) 图构建:对长文档的文本块模拟多个查询,用 RAG 生成历史响应,构建文本块-响应的二部图;(2) 自监督训练:用 GNN 学习节点嵌入,以 BERTScore 为基础的排序目标优化;(3) 检索和摘要:新查询到来时,用学到的节点嵌入检索最相关的块和历史响应。
关键设计¶
- 图构建(Graph Construction):
- 做什么:将文本块和历史响应组织为图
- 核心思路:用 LLM 对任意文本块生成模拟查询,每次检索 top-K 块并生成响应,在检索块和响应之间建边
-
设计动机:边编码了"哪些文本块一起被用来回答同一个问题"——这种共现关系蕴含逻辑关联
-
BERTScore 自监督目标:
- 做什么:优化 GNN 节点嵌入
- 核心思路:对模拟查询,用 BERTScore 计算每个节点与该查询源文本块的语义相似度作为排名标签。用对比损失+配对排序损失优化节点嵌入
-
设计动机:全局摘要没有局部标注标签,BERTScore 提供了一种不精确但有用的间接监督信号
-
图增强检索:
- 做什么:用学到的节点嵌入进行检索
- 核心思路:新查询到来时,用查询嵌入与图节点嵌入做相似度匹配,检索最相关的文本块和历史响应
- 设计动机:GNN 聚合了邻居信息,节点嵌入包含了超越局部语义的全局上下文
损失函数 / 训练策略¶
- 对比损失 + 配对排序损失
- GNN 在文本块-响应图上训练
- LLM 输入 ~1.5K token(6×256 块)
实验关键数据¶
主实验¶
| 数据集 | 最佳检索基线(R-L) | GoR(R-L) | 提升 |
|---|---|---|---|
| WCEP | ~0.21 | ~0.24 | +15% |
| QMSum | ~0.18 | ~0.20 | +11% |
| BookSum | - | 最佳 | - |
| AcademicEval | - | 最佳 | - |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| w/o GNN | 退化到普通检索 | GNN 的图学习是核心 |
| w/o 历史响应节点 | 性能下降 | 历史响应提供了有价值的信息 |
| w/o BERTScore 目标 | 训练不收敛 | 自监督信号是必要的 |
| w/o 排序损失 | 性能略降 | 排序+对比都重要 |
关键发现¶
- GoR 一致优于所有稀疏/稠密/混合检索基线——图结构有效捕获块间关联
- LLM 评估(DeepSeek-R1 as judge)也确认 GoR 的摘要更全面、多样、信息丰富
- GNN 是最关键组件——去掉后退化到普通检索水平
- 推理效率可接受——GNN 推理开销远小于 LLM 生成开销
亮点与洞察¶
- "历史响应是资产而非废弃物"的洞察有价值——RAG 系统每天产生大量响应,GoR 展示了如何回收利用这些被忽视的信息。
- 用图结构组织 RAG 记录是自然且有效的——捕获了标准检索无法捕获的块间逻辑和语义关联(如因果、时序、共现)。
- BERTScore 自监督目标巧妙解决了全局摘要缺乏局部标注标签的"鸡生蛋"问题——用间接信号替代不存在的直接标签。
- GNN 的邻居聚合天然适合捕获文本块之间的远程关联——比基于相似度的re-ranking能发现更深层的关係。
- 75%+ 的记忆利用率远超传统 RAG 的 30%——说明图结构的信息组织效率更高。
局限性 / 可改进方向¶
- 图构建需要大量模拟查询和 LLM 调用,初始化成本高——对每个文档需要生成多个查询和历史响应
- GNN 在超大文档(如整本书数万个块)上的扩展性可能成为瓶颈——节点数增加导致图卷积计算量剧增
- 仅在摘要任务上验证,QA 等其他 RAG 任务效果未知
- BERTScore 作为间接监督信号可能对某些类型的文本不够准确
- 未探索动态图更新——当新的查询和响应产生时如何增量更新图结构
相关工作与启发¶
- vs 标准 RAG: 不利用历史响应;GoR 将历史变为可学习的图结构
- vs GraphRAG (Microsoft): GraphRAG 构建实体关系图;GoR 构建检索记录图,角度不同
评分¶
- 新颖性: ⭐⭐⭐⭐ 图结构+历史响应利用新颖
- 实验充分度: ⭐⭐⭐⭐ 四数据集+12基线+消融+效率分析
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰
- 价值: ⭐⭐⭐⭐ 对长文本 RAG 的有价值改进