DuetGraph: Coarse-to-Fine Knowledge Graph Reasoning with Dual-Pathway Global-Local Fusion¶
会议: NeurIPS 2025
arXiv: 2507.11229
代码: https://github.com/USTC-DataDarknessLab/DuetGraph
领域: graph_learning
关键词: 知识图谱推理, 双通路融合, 粗到精优化, 过平滑, 图神经网络
一句话总结¶
DuetGraph 提出双通路(消息传递 + 全局注意力)并行融合模型与粗到精推理优化策略,通过分离而非堆叠局部/全局信息处理来缓解 KG 推理中的分数过平滑问题,在归纳与传导推理任务上取得 SOTA,MRR 最高提升 8.7%、训练加速 1.8×。
研究背景与动机¶
- 领域现状:知识图谱(KG)推理旨在补全缺失的实体/关系,主流方法包括消息传递网络(捕捉局部邻域)和 Transformer(捕捉全局依赖)。近年最优方法(KnowFormer 等)将两者在单阶段中堆叠,同时利用局部和全局信息。
- 现有痛点:单通路堆叠设计导致分数过平滑——正确答案和错误答案的得分趋于一致(如 Figure 1 所示,多数基线中大量错误实体得分接近正确答案),使推理质量下降。
- 核心矛盾:
- Challenge 1:消息传递层和注意力层各自堆叠就会加剧过平滑,二者串联堆叠这些效应累积更严重。
- Challenge 2:单阶段模型判别能力有限,一次性推理生成答案无法有效区分候选实体。
- 本文要解决什么:同时缓解两个过平滑来源——信息混合(Challenge 1)和单阶段判别不足(Challenge 2)。
- 切入角度:将局部/全局信息处理分离到两条独立通路而非堆叠;将推理分解为两阶段:粗粒度筛选 + 精细化判别。
- 核心idea一句话:用"分离代替堆叠"的双通路融合 + "粗到精"两阶段推理,从架构和推理策略双管齐下缓解 KG 推理中的分数过平滑。
方法详解¶
整体框架¶
输入为知识图谱 \(\mathcal{G}=\{\mathcal{V},\mathcal{E},\mathcal{R}\}\) 和查询 \((h,r,?)\)。框架包含两大组件: - 训练阶段(Steps ①-④):双通路融合模型——GNN 编码器输出实体/关系表示,然后全局注意力通路和局部消息传递通路分别计算权重矩阵,最后通过 MLP 自适应融合。 - 推理阶段(Steps ⑤-⑧):粗到精优化——粗模型生成初始实体得分表,按 Top-k 划分高/低分子表,精模型更新两个子表,基于阈值 \(\Delta\) 选择最终答案。
关键设计¶
- 双通路全局-局部融合模型(Dual-Pathway Fusion):
- 做什么:将局部消息传递和全局注意力分离为两条独立通路,各自生成表示后自适应融合。
- 核心思路:全局通路用简单全局注意力机制得到 \(Z_{\text{global}}\),局部通路用查询感知消息传递网络得到 \(Z_{\text{local}}\),最终融合为 \(Z = \alpha \cdot Z_{\text{local}} + (1-\alpha) \cdot Z_{\text{global}}\),其中 \(\alpha\) 为可学习参数。
- 设计动机:相比单通路串联,双通路并行处理避免了消息传递和注意力层之间的相互干扰。理论证明(Theorem 1)当 \(\alpha < \frac{\sigma_{\max}(\mathcal{M}_D)+\sigma_{\max}(\mathcal{M}_O)}{1+\sigma_{\max}(\mathcal{M}_O)}\) 时,双通路模型的分数差上界衰减更慢,即更抗过平滑。
-
时间复杂度优势:双通路并行执行,复杂度为 \(\mathcal{O}(\max(L_m(|\mathcal{E}|d+|\mathcal{V}|d^2), L_t|\mathcal{V}|d^2))\),优于单通路的 \(\mathcal{O}(L_m|\mathcal{E}|d+(L_m+L_t)|\mathcal{V}|d^2)\)。
-
粗到精推理优化(Coarse-to-Fine Reasoning):
- 做什么:将单阶段推理拆分为粗粒度排序 + 精细化判别两个阶段。
- 核心思路:
- 粗阶段:用已有模型(如 HousE、RED-GNN)生成初始得分表 \(\mathcal{T}\),按 Top-k 分为高分子表 \(\mathcal{T}^{\text{high}}\) 和低分子表 \(\mathcal{T}^{\text{low}}\)。
- 精阶段:用双通路模型分别更新两个子表的得分;取各子表最高分实体 \((e_h, s_{e_h})\) 和 \((e_l, s_{e_l})\),若 \(\gamma = s_{e_l} - s_{e_h} > \Delta\) 则选低分子表中的最高分实体,否则选高分子表。
-
设计动机:Theorem 2 证明两个子表最高分的期望差距下界为 \(\mathbb{E}[|s_{e_h}-s_{e_l}|] > |(\frac{1}{N_h^2+1}-\frac{1}{N_l^2+1})\cdot\sigma|\),由于 \(N_l/N_h > 1000\),该下界超过 \(0.1\sigma\),远大于基线方法的 \(0.02\sigma\)。Theorem 3 进一步证明 \(P > P'\),即粗到精优化提高了正确预测的概率。
-
损失函数:
- 对每个训练三元组 \((h,r,t)\):\(\mathcal{L} = -\log(\sigma(t|h,r)) - \sum_{t'}\log(1-\sigma(t'|h,r))\)
- 负采样通过 mask 正确答案后从剩余实体均匀采样,使用 Adam 优化器。
实验关键数据¶
主实验(归纳推理)¶
| 数据集 | 版本 | 指标 | DuetGraph | KnowFormer (之前SOTA) | 提升 |
|---|---|---|---|---|---|
| FB15k-237 | v1 | MRR | 0.507 | 0.466 | +8.8% |
| FB15k-237 | v2 | MRR | 0.549 | 0.532 | +3.2% |
| WN18RR | v3 | MRR | 0.501 | 0.467 | +7.3% |
| NELL-995 | v1 | MRR | 0.850 | 0.827 | +2.8% |
| NELL-995 | v2 | MRR | 0.543 | 0.465 | +16.8% |
| NELL-995 | v4 | MRR | 0.464 | 0.378 | +22.8% |
主实验(传导推理)¶
| 数据集 | 指标 | DuetGraph | AdaProp / HousE | 提升 |
|---|---|---|---|---|
| FB15k-237 | MRR | 0.419 | 0.417 | +0.5% |
| WN18RR | MRR | 0.573 | 0.562 | +2.0% |
| NELL-995 | MRR | 0.560 | 0.554 | +1.1% |
| YAGO3-10 | MRR | 0.580 | 0.573 | +1.2% |
消融实验¶
| 配置 | FB15k-237 v1 MRR | NELL-995 v1 MRR | 说明 |
|---|---|---|---|
| Full DuetGraph | 0.507 | 0.850 | 完整模型 |
| w/o coarse-to-fine | ~0.48 | ~0.83 | 去掉粗到精后推理质量下降 |
| w/o dual-pathway (single) | ~0.47 | ~0.82 | 退化为单通路堆叠,过平滑加剧 |
| 不同粗模型选择 | varying | varying | HousE/RED-GNN 等均可作为粗模型 |
关键发现¶
- 双通路融合和粗到精优化各自独立贡献性能提升,两者组合效果最佳。
- DuetGraph 在 NELL-995 数据集上提升最为显著(MRR 最高提升 22.8%),说明在关系多样性较高的场景下优势更大。
- 训练效率提升 1.8×,得益于双通路并行计算。
- 超参数 \(k\)(Top-k 分割点)的选择具有一定鲁棒性,但过小会丢失正确答案,过大则子表区分不够。
亮点与洞察¶
- "分离代替堆叠"思想很巧妙:既有的方法默认将不同类型信息层层叠加,本文指出这恰恰是过平滑的根源,分离处理后反而两种信息各自保持 discriminative power。这个思路可迁移到其他多源信息融合任务。
- 粗到精的两阶段推理本质上是增加了一个"对比"环节:不是直接取最高分,而是在两个子集之间比较,放大了正确/错误答案的分数差距。类似 cascaded refinement 策略可用于推荐系统等排序任务。
- 理论分析扎实,从 Lemma 1-3 到 Theorem 1-3 形成完整的证明链,涵盖过平滑上界、双通路优势和粗到精有效性。
局限性 / 可改进方向¶
- 粗模型的选择目前依赖人工指定,若粗模型质量差(初始排序混乱),Top-k 分割可能将正确答案分到低分子表,影响最终效果。
- 仅关注尾实体补全 \((h,r,?)\),虽然其他任务可转换,但直接多任务联合训练可能更高效。
- \(\alpha\) 是全局标量,对不同查询类型的自适应能力有限;如果改为 query-dependent \(\alpha\) 可能进一步提升。
- 在传导任务上提升相对较小(<2%),说明过平滑问题在归纳场景下更严重。
相关工作与启发¶
- vs KnowFormer: KnowFormer 是当前 SOTA 的混合方法,将消息传递和 Transformer 堆叠在单阶段中。DuetGraph 的双通路设计直接对标其单通路方案,在 12 个归纳数据集上全面胜出。
- vs RED-GNN / A*Net: 这些是纯消息传递方法,DuetGraph 通过额外的全局通路补充了长程依赖建模能力。
- vs TransE / RotatE: 三元组方法忽略图拓扑,DuetGraph 结合局部+全局结构信息后在传导任务上也明显优于它们。
评分¶
- 新颖性: ⭐⭐⭐⭐ 双通路分离融合和粗到精推理的组合设计新颖,但各组件的灵感来源(并行通路、级联筛选)在其他领域已有先例
- 实验充分度: ⭐⭐⭐⭐⭐ 12个归纳子集+4个传导数据集+三元组分类+消融+效率分析,覆盖全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,理论分析完整,但符号较多,部分证明需要反复对照
- 价值: ⭐⭐⭐⭐ 分数过平滑是 KG 推理的真实痛点,提出的方案实用且有理论支撑