MUG: Meta-path-aware Universal Heterogeneous Graph Pre-Training¶
会议: AAAI 2026
arXiv: 2602.22645
代码: github.com/slz1024/MUG
领域: 图学习 / 异质图预训练
关键词: 异质图, 通用图预训练, 元路径, 图基础模型, 跨域迁移, 自监督学习, 掩码自编码
一句话总结¶
首次提出无需 LLM 的通用异质图预训练方法 MUG,通过上下文结构编码统一异质节点/关系类型、维度感知编码器对齐不同图的表示空间,并利用元路径视图共享编码器 + 全局散射正则化实现跨域可迁移的编码与聚合,在跨域和小样本节点分类中显著超越已有方法。
研究背景与动机¶
通用图预训练(Universal Graph Pre-training, UGP) 旨在训练可迁移的图编码器,使其在无需重新训练的情况下泛化到未见过的下游任务和数据集,是图基础模型的核心范式。
然而,现有 UGP 方法(如 FUG、SAMGPT)几乎只关注同质图(单节点类型、简单固定关系),而现实世界中的图往往是异质图——包含多种节点类型和边类型,例如:
- ACM:论文-作者-学科,关系有 paper-author、paper-subject
- Freebase:电影-演员-导演-编剧,关系有 movie-actor、movie-director 等
将 UGP 扩展到异质图面临两个核心挑战:
输入统一困难:不同异质图的节点类型、关系类型、属性维度各不相同,无法直接构建统一的表示空间。现有 UGP 方法假设固定的实体和关系类型集合,在异质图上直接失效。
学习信息难以迁移:传统异质图方法(如 HAN、HeCo、HGMAE)设计了类型特定的编码器和元路径特定的聚合权重,这些参数与特定数据集紧密耦合,无法泛化到新的异质图。
作者指出,目前没有方法专门解决异质图的通用预训练问题,这是图基础模型研究中的重要空白。
方法详解¶
整体框架¶
MUG 包含两大核心模块:
- 异质输入统一模块:将多种节点/关系类型编码为统一表示,并通过维度感知编码器对齐不同图的表示空间
- 异质信息迁移模块:通过共享 GNN 编码器在元路径视图上进行通用编码,并引入全局散射正则化实现通用聚合
整体流程:异质图 → 上下文结构编码 → 拼接原始属性 → 维度感知对齐 → 共享 GNN 编码各元路径视图 → 三损失联合优化。
关键设计一:上下文结构编码(Contextual Structural Encoding, CSE)¶
目标:不依赖类型特定的变换矩阵,将异质节点的类型和关系信息编码到统一嵌入中。
具体做法:
- 针对每条元路径 \(\mathcal{P}_\ell\),进行元路径引导的随机游走,为每个节点采样结构上下文序列
- 使用 skip-gram + 负采样(类似 Metapath2vec)在所有元路径上联合训练,学习统一的结构嵌入 \(\mathbf{z}_v^{\text{struct}}\)
- 优化目标:鼓励同一元路径上下文中共现的节点在嵌入空间中更近
- 训练完成后冻结参数,将结构嵌入与原始节点属性拼接:\(\tilde{\mathbf{x}}_v = \text{concat}(\mathbf{x}_v, \mathbf{z}_v^{\text{struct}})\)
优势:无需为每种节点/关系类型设计专属参数,通过结构上下文隐式编码类型语义。
关键设计二:维度感知对齐(Dimension-aware Alignment)¶
目标:不同异质图的统一表示 \(\tilde{\mathbf{x}}_v\) 维度和语义空间不同,需要对齐到共享空间。
具体做法:
- 将每个属性维度视为独立语义单元,随机采样 \(n_s\) 个节点,取第 \(i\) 维的列向量 \(\tilde{\mathbf{X}}_{:,i}^s\)
- 用 MLP 将其编码为语义基向量 \(\mathbf{s}_i \in \mathbb{R}^k\)
- 每个节点的统一输入:\(\mathbf{x}_v^{\text{unify}} = \sum_{i=1}^{d} \tilde{\mathbf{x}}_v[i] \cdot \mathbf{s}_i\)
- 辅以均值中心化损失 \(\mathcal{L}_{\text{align}}\),防止基向量产生局部偏差
关键设计三:通用编码与聚合¶
通用编码:
作者通过实验发现,异质图中各元路径视图的平均同质性比例与同质图相当(如 Figure 1 所示),这意味着可以用单一共享 GNN 编码器处理不同元路径视图。
- 对每条元路径的邻接矩阵 \(\mathbf{A}^\phi\) 施加随机边掩码
- 用共享编码器 \(\text{GNN}_{\text{shared}}\) 编码掩码后的图:\(\mathbf{Z}^\phi = \text{GNN}_{\text{shared}}(\tilde{\mathbf{A}}^\phi, \mathbf{X}^{\text{unify}})\)
- 用 GNN 解码器重建邻接矩阵,以缩放余弦损失 \(\mathcal{L}^\phi\) 训练
通用聚合:
传统方法使用语义级注意力向量学习元路径权重 \(\beta^\phi\),但这些权重与训练数据集耦合。MUG 引入全局散射正则化:
该损失鼓励节点嵌入远离全局均值,增强判别力,减轻对特定聚合函数的依赖,从而提升跨域迁移能力。
训练策略¶
总损失函数为三个损失的加权组合:
- \(\mathcal{L}_{\text{align}}\):维度对齐损失,防止基向量偏差
- \(\mathcal{L}^\phi\):元路径掩码重建损失,捕获结构模式
- \(\mathcal{L}_{\text{scatter}}\):全局散射正则化,增强跨域泛化
训练完成后,所有模型参数冻结,直接迁移到未见数据集进行下游任务(零参数更新)。
实验关键数据¶
跨域节点分类(在一个数据集上训练,迁移到全部四个数据集评估)¶
| 训练集 | 方法 | ACM Ma-F1 | ACM Mi-F1 | DBLP Ma-F1 | DBLP Mi-F1 | AMiner Ma-F1 | AMiner Mi-F1 | Freebase Ma-F1 | Freebase Mi-F1 |
|---|---|---|---|---|---|---|---|---|---|
| ACM | HeCo | 80.22 | 79.71 | 76.76 | 77.97 | 24.48 | 51.18 | 31.22 | 40.67 |
| ACM | HGMAE | 84.22 | 84.01 | 87.17 | 88.23 | 29.08 | 41.91 | 32.59 | 42.95 |
| ACM | HERO | 84.37 | 84.12 | 84.60 | 85.80 | 44.08 | 50.14 | 33.69 | 43.32 |
| ACM | MUG | 85.52 | 84.90 | 91.69 | 92.38 | 76.35 | 87.02 | 46.05 | 49.78 |
| Freebase | HeCo | 77.03 | 76.30 | 82.37 | 83.26 | 29.82 | 34.51 | 42.34 | 47.92 |
| Freebase | MUG | 85.21 | 85.22 | 91.79 | 92.24 | 78.10 | 87.94 | 52.33 | 57.50 |
MUG 在所有训练-评估组合中均取得最优,尤其在 AMiner 上优势显著(Ma-F1 从 ~44 飙升至 ~76),因为 AMiner 的 one-hot 属性在 SVD 降维下信息损失严重,而 MUG 的上下文结构编码有效保留了语义信息。
小样本跨域节点分类(ACM 训练,1/3/5-shot 评估)¶
| Shot | 方法 | ACM Ma-F1 | DBLP Ma-F1 | AMiner Ma-F1 | Freebase Ma-F1 |
|---|---|---|---|---|---|
| 1-shot | HGMAE | 73.17 | 61.46 | 20.65 | 30.65 |
| 1-shot | HERO | 51.39 | 40.49 | 44.18 | 32.20 |
| 1-shot | MUG | 79.49 | 84.24 | 49.12 | 33.24 |
| 3-shot | HGMAE | 79.42 | 71.39 | 23.73 | 32.47 |
| 3-shot | MUG | 84.39 | 90.56 | 66.80 | 35.01 |
| 5-shot | HGMAE | 81.68 | 79.03 | 24.84 | 33.45 |
| 5-shot | MUG | 83.83 | 90.76 | 68.30 | 39.36 |
在 5-shot 下,MUG 的性能已接近完整标签的跨域分类结果,说明预训练表示的迁移能力极强。DBLP 上 5-shot 即达 90.76 Ma-F1,与全量标签下的 91.69 仅差不到 1 个点。
消融实验¶
在 Freebase 上训练、四个数据集上评估的消融结果表明:
- 去掉 CSE(上下文结构编码)导致最大的性能下降,尤其在跨域数据集 AMiner 上,证明了 CSE 对捕获通用异质语义的关键作用
- 去掉 \(\mathcal{L}_{\text{align}}\) 和 去掉 \(\mathcal{L}_{\text{scatter}}\) 也造成明显下降,说明两个辅助损失对缓解域特定偏差、提升跨域泛化均不可或缺
- 完整 MUG 在所有数据集上取得最佳
亮点与洞察¶
- 首创性:首个无 LLM 依赖的通用异质图预训练方法,填补了图基础模型在异质图领域的空白
- 元路径同质性发现:通过实验证明异质图各元路径视图的同质性比例与同质图相当,为共享编码器设计提供了理论和实证支撑
- 输入统一策略巧妙:用 Metapath2vec 风格的结构编码替代类型特定参数,配合维度感知对齐,优雅地解决了异质图schema不一致的问题
- 零参数更新迁移:预训练后编码器完全冻结,直接迁移到未见数据集,是真正的通用预训练
- AMiner 上的压倒性优势(Ma-F1 从 ~44 到 ~76)揭示了现有 SVD 统一方法在 one-hot 稀疏属性上的致命短板
局限性¶
- 元路径需预定义:仍依赖手动定义的元路径集合,对新图需要领域知识来指定元路径,限制了完全自动化
- 仅评估节点分类:下游任务仅包含节点分类,未验证在链接预测、图分类等其他任务上的迁移效果
- 数据集规模有限:四个评估数据集均为中小规模学术基准,未在工业级大规模异质图上验证
- CSE 预训练成本:上下文结构编码需要先用 skip-gram 预训练再冻结,增加了两阶段训练的复杂度
- 与 LLM 增强方法的对比不充分:仅提及 HiGPT 但未纳入实验对比,难以全面评估 LLM-free 路线的性价比
相关工作¶
- 异质图表示学习:HAN(层次注意力)、MAGNN(元路径聚合)、HGT(Transformer 异质图)、HeCo(对比学习双视图)、HGMAE(掩码自编码器)、HGCL(属性+拓扑视图对比)
- 通用图预训练:GCC(结构编码迁移)、FUG(属性语义基学习)、SAMGPT(结构迁移)、GraphMAE(掩码自监督)
- 异质图+LLM:HiGPT(LLM辅助文本化属性跨域迁移,但受限于非文本属性图)
评分¶
| 维度 | 分数 (1-5) | 说明 |
|---|---|---|
| 新颖性 | 4 | 首个无 LLM 的通用异质图预训练,问题定义有开创性 |
| 技术深度 | 4 | 三个模块设计合理,元路径同质性分析提供了扎实的实证基础 |
| 实验充分度 | 3 | 4 个数据集 + 跨域 + 小样本全面,但缺少大规模和多任务评估 |
| 写作质量 | 4 | 问题动机清晰,方法推导严谨,图表质量高 |
| 实用价值 | 3 | 开拓方向有价值,但元路径预定义和有限评估场景制约落地 |
| 总分 | 3.6 | 异质图基础模型的重要起步工作,方向正确但仍有拓展空间 |
相关论文¶
- [AAAI 2026] EchoLess: Label-Based Pre-Computation for Memory-Efficient Heterogeneous Graph Learning
- [AAAI 2026] RFKG-CoT: Relation-Driven Adaptive Hop-count Selection and Few-Shot Path Guidance for Knowledge-Aware QA
- [AAAI 2026] Spiking Heterogeneous Graph Attention Networks
- [AAAI 2026] Enhancing Logical Expressiveness in GNNs via Path-Neighbor Aggregation
- [AAAI 2026] PCoKG: Personality-aware Commonsense Reasoning with Debate