Relink: Constructing Query-Driven Evidence Graph On-the-Fly for GraphRAG¶
会议: AAAI 2026
arXiv: 2601.07192
代码: GitHub
领域: NLP理解 / 知识图谱
关键词: GraphRAG, 动态知识图谱, 多跳推理, 证据图构建, 查询驱动检索
一句话总结¶
提出从"先构建再推理"到"边推理边构建"的GraphRAG范式转变,通过Relink框架动态构建查询特定的证据图——结合高精度KG骨架和高召回潜在关系池,用查询驱动的排序器统一评估、按需补全缺失路径并过滤干扰事实——在5个多跳QA基准上平均提升EM 5.4%和F1 5.2%。
研究背景与动机¶
-
领域现状:GraphRAG通过利用知识图谱(KG)结构增强LLM的多跳推理能力,成为缓解幻觉的重要方法。当前所有GraphRAG方法遵循"build-then-reason"范式——先构建静态KG,再在其上推理。
-
现有痛点:
- KG固有不完整性:静态KG因知识演化和提取错误而天然不完整,导致推理路径断裂。现有KG补全方法做"全局补全",但往往无法提供特定查询需要的"局部"事实
-
低信噪比/干扰事实:通用KG中存在大量与查询主题相关但对回答无用的事实(distractor facts)。如问"某人葬在哪里","died in"关系高度相关但不是答案所需的"buried in"
-
核心矛盾:"以不变应万变"的静态KG无法适配多样化的查询需求。一个KG要同时服务所有可能的查询,必然存在不完整和噪声。
-
本文要解决什么? 实现查询驱动的动态证据图构建,同时解决KG不完整性和干扰事实两个问题。
-
切入角度:将范式从"build-then-reason"转变为"reason-and-construct"——不在静态图上导航,而是根据查询需求实时构建紧凑的证据图。
-
核心idea一句话:通过异构知识源(高精度KG+高召回潜在关系池)+查询驱动的统一排序器,动态构建查询特定的证据图。
方法详解¶
整体框架¶
Relink包含三个核心组件:(1)异构知识源构建——高精度事实KG \(\mathcal{G}_b\) + 高召回潜在关系池 \(\mathcal{R}_c\);(2) 查询驱动的动态路径探索——beam search + 粗粒度排序 + LLM精细重排 + 按需实例化;(3) 基于证据的答案生成。
关键设计¶
- 异构知识源:
- 做什么:融合高精度和高召回的两种知识源,确保覆盖率
- 核心思路:\(\mathcal{G}_b\) 是LLM从语料提取的高置信度事实KG,精度高但不完整。\(\mathcal{R}_c\) 是基于实体共现的潜在关系池,用PMI过滤有意义的共现对:\(\text{PMI}(e_i, e_j) > \tau_c\),用预训练语言模型编码共现上下文句子得到关系表示 \(\mathbf{r}_{ij}\)
-
设计动机:KG提供可靠骨架(高精度→低噪声),潜在关系池提供修复断裂路径的原材料(高召回→高覆盖)。两者互补
-
统一语义空间+查询驱动排序:
- 做什么:在统一空间中比较和排序来自KG和潜在关系池的候选边
- 核心思路:KG三元组通过 \(\text{Encoder}_F\) 编码为向量 \(\mathbf{v}_f\),潜在关系已有预计算表示 \(\mathbf{v}_l\)。两个编码器通过对比学习损失 \(\mathcal{L}_{\text{contra}}\) (InfoNCE)对齐到统一空间。查询驱动的Ranker用pairwise ranking loss \(\mathcal{L}_{\text{rank}}\) 训练,区分某条边对回答特定查询是否有用
-
设计动机:排序的标准不是"这个事实是否与查询相关"而是"这个事实是否有助于回答查询"——这正是过滤干扰事实的关键。通用语义相似度无法区分"relevant"和"useful"
-
动态路径探索与修复:
- 做什么:迭代式beam search构建推理路径,按需实例化潜在关系
- 核心思路:从查询中的主题实体出发,每步扩展所有一跳邻居(来自 \(\mathcal{G}_b\) 和 \(\mathcal{R}_c\))→ 粗排(轻量Ranker快速过滤)→ 精排(LLM评估语义贡献)→ 保留top-K路径。当选中的路径包含潜在关系 \(\mathbf{r}_{ij}\) 时,用LLM结合源上下文和查询生成具体三元组(动态实例化)
- 设计动机:粗精两阶段排序兼顾效率和精度。查询感知的实例化确保新构建的事实与用户意图对齐,而非泛泛的通用关系
损失函数 / 训练策略¶
- Ranking Loss \(\mathcal{L}_{\text{rank}}\):pairwise margin loss训练Ranker区分好路径和差路径
- Contrastive Alignment Loss \(\mathcal{L}_{\text{contra}}\):InfoNCE对齐KG事实和潜在关系在统一空间
- 交替训练:冻结编码器训练Ranker一个epoch → 冻结Ranker训练编码器一个epoch → 循环直至收敛
实验关键数据¶
主实验¶
5个多跳QA基准上的表现:
| 方法 | 2Wiki EM | 2Wiki F1 | HotpotQA EM | HotpotQA F1 | MuSiQue-Full EM |
|---|---|---|---|---|---|
| GPT-4o | 0.292 | 0.358 | 0.330 | 0.424 | 0.106 |
| HippoRAG | 0.578 | 0.684 | 0.498 | 0.647 | 0.190 |
| GraphRAG | 0.318 | 0.379 | 0.450 | 0.569 | 0.138 |
| Relink | 0.628 | 0.722 | 0.558 | 0.704 | 0.252 |
相对提升:vs HippoRAG在2Wiki上EM+8.7%,HotpotQA EM+12.0%,MuSiQue-Full EM+32.6%。
消融实验¶
| 配置 | 2Wiki EM | HotpotQA EM | 说明 |
|---|---|---|---|
| Full Model | 0.628 | 0.558 | 完整Relink |
| w/o \(\mathcal{G}_b\) | 0.582 | 0.486 | 去掉KG骨架,EM降12.9%(HotpotQA) |
| w/o \(\mathcal{R}_c\) | 0.616 | 0.526 | 去掉潜在关系池,EM降5.7% |
| w/o Query-Driven Ranker | 0.552 | 0.450 | 改用通用余弦相似度,EM降19.4% |
| w/o \(\mathcal{L}_{\text{contra}}\) | 0.603 | 0.518 | 去掉对比对齐损失,EM降7.2% |
关键发现¶
- 查询驱动Ranker贡献最大:去掉后EM降19.4%(HotpotQA),说明区分"useful"和"relevant"是核心能力
- 动态修复在极端稀疏下仍然强健:移除90%的KG边后,Relink的F1仅从0.722降至0.669(仅降7.3%),而静态方法降34.7%
- KG骨架比潜在关系池更关键:去掉KG比去掉潜在关系池掉得更多(12.9% vs 5.7%),高精度骨架是可靠推理的基础
- 统一语义空间不可或缺:无对比对齐时Ranker无法跨源比较,EM降7.2%
亮点与洞察¶
- 范式转变的系统性论述:不是简单的方法改进,而是从"build-then-reason"到"reason-and-construct"的范式级创新。论文的motivation从两个角度(不完整性+干扰事实)系统分析了静态范式的根本缺陷
- PMI+上下文编码的潜在关系池:用实体共现+PMI过滤+上下文句子编码,以极低成本构建高召回的候选关系库。这个方法可以迁移到其他需要知识补全的场景
- 稀疏性鲁棒性实验:去掉90%的KG边后仍保持高性能,这是对"reason-and-construct"范式最有说服力的验证
局限性 / 可改进方向¶
- LLM调用开销:每步探索需要LLM精细重排和动态实例化,多跳推理会导致大量LLM调用
- 依赖底层LLM能力:所有方法都用DeepSeek-V3作为backbone,Relink的改进是否在其他LLM上同样显著需验证
- 仅500个采样问题:每个数据集只评估500个问题以降低计算成本,全量评估可能有不同结论
- 潜在关系池的质量依赖PMI阈值:\(\tau_c\) 的选择影响召回和精度平衡,不同领域可能需要不同设置
相关工作与启发¶
- vs HippoRAG: HippoRAG是混合RAG的代表,结合图和文本检索但仍依赖静态图。Relink在所有数据集上全面超越,在最难的MuSiQue-Full上EM高出32.6%
- vs GraphRAG (Edge et al. 2024): 微软的GraphRAG用社区摘要增强检索,但核心仍是静态图。Relink通过动态构建直接解决其根本限制
- vs KG补全方法: 传统KGC做全局补全,无法保证补全的事实对特定查询有用。Relink做查询驱动的按需补全,更精准
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "reason-and-construct"范式转变、异构知识源统一排序、查询驱动的动态实例化都是原创贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 5个数据集、9个baseline、详细消融、稀疏性鲁棒性测试、案例分析
- 写作质量: ⭐⭐⭐⭐⭐ RQ驱动的实验组织清晰,Figure 1/4的范式对比图直观有力
- 价值: ⭐⭐⭐⭐⭐ 对GraphRAG领域有重要推动,动态构建思路可广泛应用于RAG系统