跳转至

MUG: Meta-path-aware Universal Heterogeneous Graph Pre-Training

会议: AAAI 2026
arXiv: 2602.22645
代码: github.com/slz1024/MUG
领域: 图学习 / 异质图预训练
关键词: 异质图, 通用图预训练, 元路径, 图基础模型, 跨域迁移, 自监督学习, 掩码自编码

一句话总结

首次提出无需 LLM 的通用异质图预训练方法 MUG,通过上下文结构编码统一异质节点/关系类型、维度感知编码器对齐不同图的表示空间,并利用元路径视图共享编码器 + 全局散射正则化实现跨域可迁移的编码与聚合,在跨域和小样本节点分类中显著超越已有方法。

研究背景与动机

通用图预训练(Universal Graph Pre-training, UGP) 旨在训练可迁移的图编码器,使其在无需重新训练的情况下泛化到未见过的下游任务和数据集,是图基础模型的核心范式。

然而,现有 UGP 方法(如 FUG、SAMGPT)几乎只关注同质图(单节点类型、简单固定关系),而现实世界中的图往往是异质图——包含多种节点类型和边类型,例如:

  • ACM:论文-作者-学科,关系有 paper-author、paper-subject
  • Freebase:电影-演员-导演-编剧,关系有 movie-actor、movie-director 等

将 UGP 扩展到异质图面临两个核心挑战:

输入统一困难:不同异质图的节点类型、关系类型、属性维度各不相同,无法直接构建统一的表示空间。现有 UGP 方法假设固定的实体和关系类型集合,在异质图上直接失效。

学习信息难以迁移:传统异质图方法(如 HAN、HeCo、HGMAE)设计了类型特定的编码器和元路径特定的聚合权重,这些参数与特定数据集紧密耦合,无法泛化到新的异质图。

作者指出,目前没有方法专门解决异质图的通用预训练问题,这是图基础模型研究中的重要空白。

方法详解

整体框架

MUG 包含两大核心模块:

  1. 异质输入统一模块:将多种节点/关系类型编码为统一表示,并通过维度感知编码器对齐不同图的表示空间
  2. 异质信息迁移模块:通过共享 GNN 编码器在元路径视图上进行通用编码,并引入全局散射正则化实现通用聚合

整体流程:异质图 → 上下文结构编码 → 拼接原始属性 → 维度感知对齐 → 共享 GNN 编码各元路径视图 → 三损失联合优化。

关键设计一:上下文结构编码(Contextual Structural Encoding, CSE)

目标:不依赖类型特定的变换矩阵,将异质节点的类型和关系信息编码到统一嵌入中。

具体做法

  • 针对每条元路径 \(\mathcal{P}_\ell\),进行元路径引导的随机游走,为每个节点采样结构上下文序列
  • 使用 skip-gram + 负采样(类似 Metapath2vec)在所有元路径上联合训练,学习统一的结构嵌入 \(\mathbf{z}_v^{\text{struct}}\)
  • 优化目标:鼓励同一元路径上下文中共现的节点在嵌入空间中更近
  • 训练完成后冻结参数,将结构嵌入与原始节点属性拼接:\(\tilde{\mathbf{x}}_v = \text{concat}(\mathbf{x}_v, \mathbf{z}_v^{\text{struct}})\)

优势:无需为每种节点/关系类型设计专属参数,通过结构上下文隐式编码类型语义。

关键设计二:维度感知对齐(Dimension-aware Alignment)

目标:不同异质图的统一表示 \(\tilde{\mathbf{x}}_v\) 维度和语义空间不同,需要对齐到共享空间。

具体做法

  • 将每个属性维度视为独立语义单元,随机采样 \(n_s\) 个节点,取第 \(i\) 维的列向量 \(\tilde{\mathbf{X}}_{:,i}^s\)
  • 用 MLP 将其编码为语义基向量 \(\mathbf{s}_i \in \mathbb{R}^k\)
  • 每个节点的统一输入:\(\mathbf{x}_v^{\text{unify}} = \sum_{i=1}^{d} \tilde{\mathbf{x}}_v[i] \cdot \mathbf{s}_i\)
  • 辅以均值中心化损失 \(\mathcal{L}_{\text{align}}\),防止基向量产生局部偏差

关键设计三:通用编码与聚合

通用编码

作者通过实验发现,异质图中各元路径视图的平均同质性比例与同质图相当(如 Figure 1 所示),这意味着可以用单一共享 GNN 编码器处理不同元路径视图。

  • 对每条元路径的邻接矩阵 \(\mathbf{A}^\phi\) 施加随机边掩码
  • 用共享编码器 \(\text{GNN}_{\text{shared}}\) 编码掩码后的图:\(\mathbf{Z}^\phi = \text{GNN}_{\text{shared}}(\tilde{\mathbf{A}}^\phi, \mathbf{X}^{\text{unify}})\)
  • 用 GNN 解码器重建邻接矩阵,以缩放余弦损失 \(\mathcal{L}^\phi\) 训练

通用聚合

传统方法使用语义级注意力向量学习元路径权重 \(\beta^\phi\),但这些权重与训练数据集耦合。MUG 引入全局散射正则化

\[\mathcal{L}_{\text{scatter}} = -\frac{1}{|\mathcal{V}|}\sum_{v \in \mathcal{V}} \|\mathbf{z}_v - \bar{\mathbf{z}}\|_2^2\]

该损失鼓励节点嵌入远离全局均值,增强判别力,减轻对特定聚合函数的依赖,从而提升跨域迁移能力。

训练策略

总损失函数为三个损失的加权组合:

\[\mathcal{L} = \lambda_1 \mathcal{L}_{\text{align}} + \lambda_2 \sum_{\phi \in \Phi} \beta^\phi \mathcal{L}^\phi + \lambda_3 \mathcal{L}_{\text{scatter}}\]
  • \(\mathcal{L}_{\text{align}}\):维度对齐损失,防止基向量偏差
  • \(\mathcal{L}^\phi\):元路径掩码重建损失,捕获结构模式
  • \(\mathcal{L}_{\text{scatter}}\):全局散射正则化,增强跨域泛化

训练完成后,所有模型参数冻结,直接迁移到未见数据集进行下游任务(零参数更新)。

实验关键数据

跨域节点分类(在一个数据集上训练,迁移到全部四个数据集评估)

训练集 方法 ACM Ma-F1 ACM Mi-F1 DBLP Ma-F1 DBLP Mi-F1 AMiner Ma-F1 AMiner Mi-F1 Freebase Ma-F1 Freebase Mi-F1
ACM HeCo 80.22 79.71 76.76 77.97 24.48 51.18 31.22 40.67
ACM HGMAE 84.22 84.01 87.17 88.23 29.08 41.91 32.59 42.95
ACM HERO 84.37 84.12 84.60 85.80 44.08 50.14 33.69 43.32
ACM MUG 85.52 84.90 91.69 92.38 76.35 87.02 46.05 49.78
Freebase HeCo 77.03 76.30 82.37 83.26 29.82 34.51 42.34 47.92
Freebase MUG 85.21 85.22 91.79 92.24 78.10 87.94 52.33 57.50

MUG 在所有训练-评估组合中均取得最优,尤其在 AMiner 上优势显著(Ma-F1 从 ~44 飙升至 ~76),因为 AMiner 的 one-hot 属性在 SVD 降维下信息损失严重,而 MUG 的上下文结构编码有效保留了语义信息。

小样本跨域节点分类(ACM 训练,1/3/5-shot 评估)

Shot 方法 ACM Ma-F1 DBLP Ma-F1 AMiner Ma-F1 Freebase Ma-F1
1-shot HGMAE 73.17 61.46 20.65 30.65
1-shot HERO 51.39 40.49 44.18 32.20
1-shot MUG 79.49 84.24 49.12 33.24
3-shot HGMAE 79.42 71.39 23.73 32.47
3-shot MUG 84.39 90.56 66.80 35.01
5-shot HGMAE 81.68 79.03 24.84 33.45
5-shot MUG 83.83 90.76 68.30 39.36

在 5-shot 下,MUG 的性能已接近完整标签的跨域分类结果,说明预训练表示的迁移能力极强。DBLP 上 5-shot 即达 90.76 Ma-F1,与全量标签下的 91.69 仅差不到 1 个点。

消融实验

在 Freebase 上训练、四个数据集上评估的消融结果表明:

  • 去掉 CSE(上下文结构编码)导致最大的性能下降,尤其在跨域数据集 AMiner 上,证明了 CSE 对捕获通用异质语义的关键作用
  • 去掉 \(\mathcal{L}_{\text{align}}\)去掉 \(\mathcal{L}_{\text{scatter}}\) 也造成明显下降,说明两个辅助损失对缓解域特定偏差、提升跨域泛化均不可或缺
  • 完整 MUG 在所有数据集上取得最佳

亮点与洞察

  1. 首创性:首个无 LLM 依赖的通用异质图预训练方法,填补了图基础模型在异质图领域的空白
  2. 元路径同质性发现:通过实验证明异质图各元路径视图的同质性比例与同质图相当,为共享编码器设计提供了理论和实证支撑
  3. 输入统一策略巧妙:用 Metapath2vec 风格的结构编码替代类型特定参数,配合维度感知对齐,优雅地解决了异质图schema不一致的问题
  4. 零参数更新迁移:预训练后编码器完全冻结,直接迁移到未见数据集,是真正的通用预训练
  5. AMiner 上的压倒性优势(Ma-F1 从 ~44 到 ~76)揭示了现有 SVD 统一方法在 one-hot 稀疏属性上的致命短板

局限性

  1. 元路径需预定义:仍依赖手动定义的元路径集合,对新图需要领域知识来指定元路径,限制了完全自动化
  2. 仅评估节点分类:下游任务仅包含节点分类,未验证在链接预测、图分类等其他任务上的迁移效果
  3. 数据集规模有限:四个评估数据集均为中小规模学术基准,未在工业级大规模异质图上验证
  4. CSE 预训练成本:上下文结构编码需要先用 skip-gram 预训练再冻结,增加了两阶段训练的复杂度
  5. 与 LLM 增强方法的对比不充分:仅提及 HiGPT 但未纳入实验对比,难以全面评估 LLM-free 路线的性价比

相关工作

  • 异质图表示学习:HAN(层次注意力)、MAGNN(元路径聚合)、HGT(Transformer 异质图)、HeCo(对比学习双视图)、HGMAE(掩码自编码器)、HGCL(属性+拓扑视图对比)
  • 通用图预训练:GCC(结构编码迁移)、FUG(属性语义基学习)、SAMGPT(结构迁移)、GraphMAE(掩码自监督)
  • 异质图+LLM:HiGPT(LLM辅助文本化属性跨域迁移,但受限于非文本属性图)

评分

维度 分数 (1-5) 说明
新颖性 4 首个无 LLM 的通用异质图预训练,问题定义有开创性
技术深度 4 三个模块设计合理,元路径同质性分析提供了扎实的实证基础
实验充分度 3 4 个数据集 + 跨域 + 小样本全面,但缺少大规模和多任务评估
写作质量 4 问题动机清晰,方法推导严谨,图表质量高
实用价值 3 开拓方向有价值,但元路径预定义和有限评估场景制约落地
总分 3.6 异质图基础模型的重要起步工作,方向正确但仍有拓展空间

相关论文