跳转至

GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation

会议: NeurIPS 2025
arXiv: 2502.01113
代码: https://github.com/rmanluo/gfm-rag (有)
领域: 图学习 / RAG / 知识图谱
关键词: Graph Foundation Model, RAG, Knowledge Graph, Multi-hop Reasoning, GNN

一句话总结

提出首个图基础模型驱动的检索增强生成框架 GFM-RAG,通过 query-dependent GNN 在知识图谱上进行单步多跳推理,仅 8M 参数即可在未见数据集上零样本泛化,在多跳QA检索任务上大幅超越 SOTA。

研究背景与动机

  1. 领域现状:RAG 是为 LLM 注入外部知识的主流范式。传统 RAG 将文档编码为独立向量进行检索,面对需要跨文档推理的多跳问题效果不佳。GraphRAG 方法(如 HippoRAG、LightRAG)通过构建图结构来显式建模知识间的关系。
  2. 现有痛点:(a) 传统向量检索无法捕获文档间的复杂关系;(b) 多步检索方法(如 IRCoT)虽然通过 LLM 迭代推理改善了效果,但计算开销极大(每条查询需数秒);(c) 现有 GraphRAG 方法(如 HippoRAG 使用 Personalized PageRank)依赖图结构本身,但图往往噪声大、不完整;(d) 已有 GNN 方法需要为每个新数据集从头训练,缺乏泛化性。
  3. 核心矛盾:如何在保持高效(单步检索)的同时实现多跳推理能力,且能跨数据集泛化?
  4. 本文要解决什么?:设计一个可迁移的图基础模型(GFM),在一次前向传播中完成多跳推理检索,并且预训练后直接适用于未见数据集。
  5. 切入角度:利用 query-dependent GNN 的多跳消息传递天然等价于图上的多跳逻辑推理,将 query、entity、relation 映射到统一语义空间,使模型对不同图通用。
  6. 核心 idea 一句话:用统一语义空间 + query-dependent 消息传递 GNN,在大规模 KG 上预训练出可跨数据集迁移的图基础模型检索器。

方法详解

整体框架

GFM-RAG 分三步:(1) KG-index 构建:从文档中抽取实体和关系构建知识图谱索引;(2) GFM Retriever:query-dependent GNN 在 KG 上推理,输出每个实体与 query 的相关性分数;(3) 文档排序与生成:根据实体分数加权排序文档,送入 LLM 生成答案。

输入:用户查询 \(q\) + 文档集 \(\mathcal{D}\)
输出:top-K 相关文档 \(\mathcal{D}^K\) 及 LLM 生成的答案 \(a\)

关键设计

  1. KG-index 构建:
  2. 做什么:从文档中用 OpenIE(LLM 驱动)抽取 (entity, relation, entity) 三元组,构建知识图谱索引
  3. 核心思路:除了直接抽取的三元组 \(\mathcal{T}\),还通过实体消解(embedding 相似度)添加等价边 \(\mathcal{T}^+\)(如 "USA" ↔ "United States of America"),增强连通性
  4. 设计动机:类比人脑海马体的记忆索引理论,KG-index 作为"人工海马体"存储知识间的关联,解决向量独立编码丢失关系的问题

  5. Query-dependent GNN (GFM Retriever):

  6. 做什么:在 KG 上执行 query 条件化的消息传递,计算每个实体对 query 的相关性分数
  7. 核心思路:
    • 初始化:用 sentence embedding model 将 query 编码为 \(\bm{q} \in \mathbb{R}^d\),query 中提到的实体初始化为 \(\bm{q}\),其余为零向量
    • 消息传递:L 层 query-dependent 消息传递,relation embedding 也用同一 sentence model 初始化并通过 layer-specific MLP 更新;消息函数用非参数 DistMult,聚合用 sum + 线性层更新
    • 输出:最终 MLP + sigmoid 将实体向量映射为相关性分数 \(P_q \in \mathbb{R}^{|\mathcal{E}| \times 1}\)
  8. 设计动机:query-dependent 消息传递已被理论证明等价于多跳逻辑推理(NBFNet),L 层消息传递 = L 跳推理;统一语义空间(query/entity/relation 用同一 embedding model)使模型对不同图通用
  9. 与已有方法区别:传统 GNN 是 graph-specific 的,本方法通过语义初始化实现跨图迁移

  10. 两阶段训练:

  11. 做什么:先自监督预训练,再有监督微调
  12. 核心思路:
    • Stage 1 - KG Completion 预训练:随机遮盖三元组的头/尾实体,让 GNN 预测被遮盖实体,增强图推理能力
    • Stage 2 - Document Retrieval 微调:在标注的检索数据集上训练,query 是自然语言问题,目标实体来自标注的支撑文档
    • 损失函数:BCE loss + Ranking loss 的加权组合 \(\mathcal{L} = \alpha \mathcal{L}_{BCE} + (1-\alpha) \mathcal{L}_{RANK}\),ranking loss 解决正样本稀疏导致的梯度消失问题
  13. 训练规模:60 个 KG,14M+ 三元组,700k 文档

  14. 文档排序:

  15. 做什么:从实体分数转换为文档分数
  16. 核心思路:取 top-T 实体,用逆文档频率加权(类似 IDF),通过实体-文档倒排索引 \(M\) 计算文档分数 \(P_d = M^\top F_e\)
  17. 设计动机:高频实体(出现在很多文档中)的区分度低,逆频率加权降低其影响

损失函数 / 训练策略

  • BCE + Ranking loss 联合优化,\(\alpha = 0.3\)
  • 负采样从 KG 中随机采样
  • 8 × A100 训练,batch size 4,lr = 5e-4
  • 模型仅 8M 参数,6 层消息传递,隐维度 512

实验关键数据

主实验 — 多跳检索

数据集 指标 GFM-RAG IRCoT+HippoRAG (SOTA) 提升
HotpotQA R@2 78.3 67.0 +16.9%
MuSiQue R@2 49.1 45.3 +8.4%
2Wiki R@2 90.8 75.8 +19.8%
HotpotQA R@5 87.1 83.0 +4.9%
MuSiQue R@5 58.2 57.6 +1.0%
2Wiki R@5 95.6 93.9 +1.8%

多跳 QA

数据集 指标 GFM-RAG IRCoT+GFM-RAG 之前SOTA
HotpotQA EM 51.6 56.0 48.7 (FLARE)
MuSiQue EM 30.2 36.6 21.9 (IRCoT+HippoRAG)
2Wiki EM 69.8 72.5 48.9 (Adaptive-RAG)

效率分析

方法 HotpotQA 时间(s) R@5
ColBERTv2 0.035 79.3
HippoRAG 0.255 77.7
IRCoT+HippoRAG 3.162 83.0
GFM-RAG 0.107 87.1

消融实验

配置 关键发现
无预训练 性能显著下降,预训练对泛化能力至关重要
仅 BCE loss 效果不如 BCE+Ranking,正样本稀疏问题
无实体消解 KG 连通性下降,多跳推理受阻
不同 sentence model 性能不敏感,说明框架通用性好

关键发现

  • GFM-RAG 单步即超越所有多步方法,效率高 30 倍(vs IRCoT+HippoRAG)
  • 在 7 个领域特定 RAG 数据集上零样本泛化,平均超过 HippoRAG 18.9%
  • 模型性能遵循 neural scaling law:\(z \propto 0.24 x^{0.05} + 0.11 y^{0.03}\),说明更多数据和更大模型能进一步提升

亮点与洞察

  • 统一语义空间的设计非常巧妙:query、entity、relation 都用同一个 sentence embedding model 初始化,使 GNN 天然可迁移到任何新图。这是实现"图基础模型"的关键设计。
  • 单步等价多跳的理论保证:L 层 query-dependent 消息传递在理论上等价于 L 跳逻辑推理,避免了多步检索的 LLM 开销。
  • 路径可解释性:通过梯度回溯可以提取 GNN 的多跳推理路径,增强可信度。
  • 逆频率加权的文档排序类似 TF-IDF 思想,简单有效地从实体分数转换为文档分数。

局限性 / 可改进方向

  • KG 构建依赖 LLM:OpenIE 抽取质量直接影响 KG 质量,不同 LLM 抽取结果差异大;对低资源语言可能效果更差
  • 8M 参数 vs scaling law:虽然展示了 scaling law,但实际只训练到 8M,更大规模是否有瓶颈未知
  • 实体消解是瓶颈:当前用 embedding 相似度做消解,对同义但语义不相似的实体可能失效
  • KG 构建开销:对每个新数据集都需要重新构建 KG-index,这一步本身需要 LLM 调用,成本不低
  • 可能的改进:将 GFM-RAG 的图推理与 dense retrieval 结合做混合检索;探索更大规模预训练

相关工作与启发

  • vs HippoRAG: HippoRAG 用 Personalized PageRank 做图检索,完全依赖图结构;GFM-RAG 则用 GNN 学习推理,对噪声和不完整图更鲁棒
  • vs IRCoT: IRCoT 需要 LLM 多步迭代推理,开销大;GFM-RAG 单步 GNN 推理等效多跳,效率高30倍
  • vs ULTRA/GFT 等图基础模型: 这些工作聚焦于图任务(节点分类、链接预测),GFM-RAG 是首个面向 RAG 的图基础模型

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个将图基础模型用于 RAG 的工作,统一语义空间设计优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 3 个多跳 QA + 7 个领域特定数据集 + 效率分析 + scaling law + 消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细,但部分符号较多
  • 价值: ⭐⭐⭐⭐⭐ 为 GraphRAG 提供了强大且通用的解决方案,8M 参数即可零样本泛化