Relink: Constructing Query-Driven Evidence Graph On-the-Fly for GraphRAG¶

会议: AAAI 2026
arXiv: 2601.07192
代码: GitHub
领域: NLP理解 / 知识图谱
关键词: GraphRAG, 动态知识图谱, 多跳推理, 证据图构建, 查询驱动检索

一句话总结¶

提出从"先构建再推理"到"边推理边构建"的GraphRAG范式转变，通过Relink框架动态构建查询特定的证据图——结合高精度KG骨架和高召回潜在关系池，用查询驱动的排序器统一评估、按需补全缺失路径并过滤干扰事实——在5个多跳QA基准上平均提升EM 5.4%和F1 5.2%。

研究背景与动机¶

领域现状：GraphRAG通过利用知识图谱(KG)结构增强LLM的多跳推理能力，成为缓解幻觉的重要方法。当前所有GraphRAG方法遵循"build-then-reason"范式——先构建静态KG，再在其上推理。
现有痛点：
KG固有不完整性：静态KG因知识演化和提取错误而天然不完整，导致推理路径断裂。现有KG补全方法做"全局补全"，但往往无法提供特定查询需要的"局部"事实
低信噪比/干扰事实：通用KG中存在大量与查询主题相关但对回答无用的事实（distractor facts）。如问"某人葬在哪里"，"died in"关系高度相关但不是答案所需的"buried in"
核心矛盾："以不变应万变"的静态KG无法适配多样化的查询需求。一个KG要同时服务所有可能的查询，必然存在不完整和噪声。
本文要解决什么？ 实现查询驱动的动态证据图构建，同时解决KG不完整性和干扰事实两个问题。
切入角度：将范式从"build-then-reason"转变为"reason-and-construct"——不在静态图上导航，而是根据查询需求实时构建紧凑的证据图。
核心idea一句话：通过异构知识源（高精度KG+高召回潜在关系池）+查询驱动的统一排序器，动态构建查询特定的证据图。

方法详解¶

整体框架¶

Relink包含三个核心组件：(1)异构知识源构建——高精度事实KG \(\mathcal{G}_b\) + 高召回潜在关系池 \(\mathcal{R}_c\)；(2) 查询驱动的动态路径探索——beam search + 粗粒度排序 + LLM精细重排 + 按需实例化；(3) 基于证据的答案生成。

关键设计¶

异构知识源:
做什么：融合高精度和高召回的两种知识源，确保覆盖率
核心思路：\(\mathcal{G}_b\) 是LLM从语料提取的高置信度事实KG，精度高但不完整。\(\mathcal{R}_c\) 是基于实体共现的潜在关系池，用PMI过滤有意义的共现对：\(\text{PMI}(e_i, e_j) > \tau_c\)，用预训练语言模型编码共现上下文句子得到关系表示 \(\mathbf{r}_{ij}\)
设计动机：KG提供可靠骨架（高精度→低噪声），潜在关系池提供修复断裂路径的原材料（高召回→高覆盖）。两者互补
统一语义空间+查询驱动排序:
做什么：在统一空间中比较和排序来自KG和潜在关系池的候选边
核心思路：KG三元组通过 \(\text{Encoder}_F\) 编码为向量 \(\mathbf{v}_f\)，潜在关系已有预计算表示 \(\mathbf{v}_l\)。两个编码器通过对比学习损失 \(\mathcal{L}_{\text{contra}}\) (InfoNCE)对齐到统一空间。查询驱动的Ranker用pairwise ranking loss \(\mathcal{L}_{\text{rank}}\) 训练，区分某条边对回答特定查询是否有用
设计动机：排序的标准不是"这个事实是否与查询相关"而是"这个事实是否有助于回答查询"——这正是过滤干扰事实的关键。通用语义相似度无法区分"relevant"和"useful"
动态路径探索与修复:
做什么：迭代式beam search构建推理路径，按需实例化潜在关系
核心思路：从查询中的主题实体出发，每步扩展所有一跳邻居（来自 \(\mathcal{G}_b\) 和 \(\mathcal{R}_c\)）→ 粗排（轻量Ranker快速过滤）→ 精排（LLM评估语义贡献）→ 保留top-K路径。当选中的路径包含潜在关系 \(\mathbf{r}_{ij}\) 时，用LLM结合源上下文和查询生成具体三元组（动态实例化）
设计动机：粗精两阶段排序兼顾效率和精度。查询感知的实例化确保新构建的事实与用户意图对齐，而非泛泛的通用关系

损失函数 / 训练策略¶

Ranking Loss \(\mathcal{L}_{\text{rank}}\)：pairwise margin loss训练Ranker区分好路径和差路径
Contrastive Alignment Loss \(\mathcal{L}_{\text{contra}}\)：InfoNCE对齐KG事实和潜在关系在统一空间
交替训练：冻结编码器训练Ranker一个epoch → 冻结Ranker训练编码器一个epoch → 循环直至收敛

实验关键数据¶

主实验¶

5个多跳QA基准上的表现：

方法	2Wiki EM	2Wiki F1	HotpotQA EM	HotpotQA F1	MuSiQue-Full EM
GPT-4o	0.292	0.358	0.330	0.424	0.106
HippoRAG	0.578	0.684	0.498	0.647	0.190
GraphRAG	0.318	0.379	0.450	0.569	0.138
Relink	0.628	0.722	0.558	0.704	0.252

相对提升：vs HippoRAG在2Wiki上EM+8.7%，HotpotQA EM+12.0%，MuSiQue-Full EM+32.6%。

消融实验¶

配置	2Wiki EM	HotpotQA EM	说明
Full Model	0.628	0.558	完整Relink
w/o \(\mathcal{G}_b\)	0.582	0.486	去掉KG骨架，EM降12.9%(HotpotQA)
w/o \(\mathcal{R}_c\)	0.616	0.526	去掉潜在关系池，EM降5.7%
w/o Query-Driven Ranker	0.552	0.450	改用通用余弦相似度，EM降19.4%
w/o \(\mathcal{L}_{\text{contra}}\)	0.603	0.518	去掉对比对齐损失，EM降7.2%

关键发现¶

查询驱动Ranker贡献最大：去掉后EM降19.4%（HotpotQA），说明区分"useful"和"relevant"是核心能力
动态修复在极端稀疏下仍然强健：移除90%的KG边后，Relink的F1仅从0.722降至0.669（仅降7.3%），而静态方法降34.7%
KG骨架比潜在关系池更关键：去掉KG比去掉潜在关系池掉得更多（12.9% vs 5.7%），高精度骨架是可靠推理的基础
统一语义空间不可或缺：无对比对齐时Ranker无法跨源比较，EM降7.2%

亮点与洞察¶

范式转变的系统性论述：不是简单的方法改进，而是从"build-then-reason"到"reason-and-construct"的范式级创新。论文的motivation从两个角度（不完整性+干扰事实）系统分析了静态范式的根本缺陷
PMI+上下文编码的潜在关系池：用实体共现+PMI过滤+上下文句子编码，以极低成本构建高召回的候选关系库。这个方法可以迁移到其他需要知识补全的场景
稀疏性鲁棒性实验：去掉90%的KG边后仍保持高性能，这是对"reason-and-construct"范式最有说服力的验证

局限性 / 可改进方向¶

LLM调用开销：每步探索需要LLM精细重排和动态实例化，多跳推理会导致大量LLM调用
依赖底层LLM能力：所有方法都用DeepSeek-V3作为backbone，Relink的改进是否在其他LLM上同样显著需验证
仅500个采样问题：每个数据集只评估500个问题以降低计算成本，全量评估可能有不同结论
潜在关系池的质量依赖PMI阈值：\(\tau_c\) 的选择影响召回和精度平衡，不同领域可能需要不同设置

评分¶

新颖性: ⭐⭐⭐⭐⭐ "reason-and-construct"范式转变、异构知识源统一排序、查询驱动的动态实例化都是原创贡献
实验充分度: ⭐⭐⭐⭐⭐ 5个数据集、9个baseline、详细消融、稀疏性鲁棒性测试、案例分析
写作质量: ⭐⭐⭐⭐⭐ RQ驱动的实验组织清晰，Figure 1/4的范式对比图直观有力
价值: ⭐⭐⭐⭐⭐ 对GraphRAG领域有重要推动，动态构建思路可广泛应用于RAG系统