NeurIPS 2025 图学习 graph pre-training Transformer substructure tokenization masked substructure modeling random walk message-passing-free

Generative Graph Pattern Machine¶

会议: NeurIPS 2025
arXiv: 2505.16130
作者: Zehong Wang, Zheyuan Zhang, Tianyi Ma, Chuxu Zhang, Yanfang Ye (University of Notre Dame, University of Connecticut) 代码: https://github.com/Zehong-Wang/G2PM (有)
领域: 图学习 / 图预训练 / Transformer
关键词: graph pre-training, generative Transformer, substructure tokenization, masked substructure modeling, random walk, message-passing-free

一句话总结¶

提出 Generative Graph Pattern Machine (G2PM)，一种完全无消息传递的生成式 Transformer 图预训练框架：通过随机游走将图实例（节点/边/图）tokenize 为子结构序列，以 Masked Substructure Modeling 目标进行自监督预训练，在节点/链接/图分类及跨域迁移任务上全面超越现有图预训练方法，并展现出类似 NLP/CV 的模型和数据双重扩展性。

研究背景与动机¶

Transformer 已在 NLP（LLM）和 CV（ViT）中通过生成式预训练取得巨大成功，但这一范式在图领域尚未实现类似的突破，严重制约了图基础模型的发展。现有图学习主要依赖消息传递 GNN（MPNN），存在以下根本瓶颈：

表达能力受限：受制于 1-WL 测试的上界

过平滑（over-smoothing）：层数增加时节点表示趋同

过压缩（over-squashing）：信息在瓶颈边上被压缩丢失

长程依赖建模不足：消息传递的局部性限制了全局信息流

可扩展性差：增大模型或数据反而无法带来持续的性能提升

此外，已有图预训练研究主要采用对比学习，但其学习泛化语义表示的能力弱于生成式目标（如 BERT、MAE 已充分说明）。

将生成式 Transformer 预训练迁移到图领域面临三大独特挑战： - 缺乏序列结构：图不具备文本的线性或图像的网格结构 - 语义粒度低：图的节点/边是低级语义单元，不同于词/图像块的高级语义 - 序列长度：如果以节点为 token，序列长度随节点数线性增长，Transformer 的二次复杂度不可承受

方法详解¶

核心思想：子结构序列化¶

G2PM 的核心洞察是：有意义的图子结构（substructure）是图的语义构建单元（如社交网络中的三角形表示稳定关系，分子图中的苯环编码化学稳定性）。因此可以将任意图实例表示为子结构序列，类似于文本的词序列或图像的 patch 序列。

随机游走 Tokenizer¶

为避免子图同构匹配（NP-complete）的高计算成本，G2PM 采用随机游走实时采样子结构模式：

对每个图实例采样 \(k\) 条无偏随机游走，每条长度为 \(L\)
转移概率：\(P(v_{i+1}|v_0,...,v_i) = \mathbb{1}[(v_i,v_{i+1}) \in \mathcal{E}] / D(v_i)\)
每条游走对应一个子结构模式（如 [1,2,3,1,4,3] 对应菱形结构）

子结构编码方式：将游走中的节点特征序列 \(w = [\mathbf{x}_1, ..., \mathbf{x}_m]\) 输入一个小型 Transformer 编码器 \(f\) 生成子结构嵌入 \(\mathbf{p} = f(w)\)。

关键设计决策： - 无位置编码：实验发现位置嵌入无一致收益，且引入立方复杂度，因此完全省略 - 任务无关：节点任务从目标节点出发游走，边任务从端点出发，图任务从随机节点出发 - 消除消息传递瓶颈：随机游走天然捕获长程依赖，表达能力超越 1-WL，且不受过平滑/过压缩影响

G2PM 主干网络¶

采用标准 Transformer 架构作为编码器和解码器的骨干。输入为子结构 token 序列 \(\mathbf{P} = [\mathbf{p}_1, ..., \mathbf{p}_n]\)，通过多头自注意力和前馈网络进行逐层编码。默认配置为：

隐藏维度 768，注意力头数 12
编码器 3 层，解码器 1 层
参数约 21.3M（编码器）+ 7.1M（解码器）

预训练目标：Masked Substructure Modeling (MSM)¶

类似 BERT/MAE 的掩码建模思想，但操作单元是子结构而非词或 patch：

从图中采样子结构序列 \(\mathbf{P} = [\mathbf{p}_1, ..., \mathbf{p}_n]\)
随机掩码一部分子结构（默认高比例掩码），保留可见子结构 \(\mathbf{P}_{vis}\)
可见子结构进入编码器生成上下文表示 \(\mathbf{H}_{vis}\)
在掩码位置插入可学习的 [MASK] token，拼接后送入解码器重建

重建目标：不是重建低级节点特征，而是重建由 EMA 编码器生成的高级语义嵌入：

\[\mathcal{L} = \frac{1}{n} \sum_{i=1}^{n} \text{is\_masked}(\mathbf{p}_i) \cdot \|\mathbf{r}_i - \text{sg}[\hat{\mathbf{p}}_i]\|_2^2\]

其中 \(\hat{\mathbf{p}}_i = f_{\text{EMA}}(w_i)\) 是 EMA 编码器的输出，sg 为停梯度算子。

数据增强策略¶

采用混合增强策略，每个实例同时应用一种特征级和一种结构级增强： - 特征级：特征掩码（置零部分特征）、节点掩码（掩码整个节点） - 结构级：子结构腐蚀（丢弃游走中的节点）、子结构注入（用随机节点替换）

下游适配¶

预训练后丢弃解码器，在编码器上接线性预测头。对子结构表示做均值池化后进行最终预测。

设计空间探索（关键消融实验）¶

论文进行了系统的设计空间分析，产出多条重要洞察：

设计维度	最佳选择	洞察
架构风格	MAE-style（稀疏编码器+轻量解码器）	SimMIM-style 表现更差，稀疏性鼓励编码器学习更强的上下文表示
模型维度	768（64.5M 参数）	性能随维度持续提升，呈现良好的扩展规律
编码器/解码器层数	编码器 3 层 / 解码器 1 层	更深解码器反而导致过拟合
子结构编码器	Transformer	优于 GRU、GIN、Mean Pooling
位置编码	不使用	无一致收益且计算代价高
掩码比例	高比例（~0.7-0.8）	高掩码减少冗余游走，提供更挑战的学习信号
掩码 token	可学习	优于固定/随机/采样 token
重建目标	EMA 语义嵌入	优于低级特征（均值池化/拼接）
损失函数	L2 loss	优于 L1，对离群值更敏感有助于捕捉细微语义
EMA 动量	α=0.99, 每 10 步更新	α=0（无 EMA）导致训练崩溃
增强策略	混合增强	单一增强效果有限，多样性至关重要

实验结果¶

节点分类（同质图）¶

在 7 个数据集上评估（Pubmed 到 ogbn-products），G2PM 在所有自监督方法中表现最佳，平均排名 2.0（仅次于有监督 GPM）： - ogbn-arxiv：72.31%（60M 参数），持续随参数量提升 - ogbn-products：80.56%（显著超越 GraphMAE2 的 79.33%）

模型/数据扩展性¶

模型扩展：ogbn-arxiv 上从 0.4M 到 64.5M 参数，性能从 68.2% 持续提升到 72.3%，而 GraphMAE/BGRL 在约 3M 参数后即停滞甚至下降
数据扩展：增加预训练数据持续提升性能，而对比方法在小数据比例即达峰值后下降

图分类¶

在 7 个数据集（5 分子图 + 2 社交网络）上以平均排名 1.0 全面领先： - ogbg-HIV：78.7%（vs GraphMAE 77.8%） - IMDB-B：83.0%（vs GraphMAE 75.5%，巨大提升） - 无预训练版本平均排名 8.3，说明预训练对图级任务至关重要

链接预测¶

在 Cora/Pubmed/ogbl-Collab 三个数据集上均优于 GCN 和 GraphMAE。

跨域迁移¶

展现出优秀的跨域迁移能力： - Arxiv → Products：81.3%（正向迁移 +0.7%） - Arxiv → HIV：76.8% - HIV → Arxiv：72.6%（正向迁移 +0.3%） - HIV → PCBA：77.9%（正向迁移 +2.3%）

跨域预训练在 Arxiv+FB15K237+ChemBL 上联合预训练后，在三个目标上均接近或超越图基础模型（OFA、GFT）。

理论洞察：子结构依赖关系¶

论文从三个角度分析了 MSM 有效性的结构基础：

层次依赖：小子结构（如三角形）是大结构（如团）的构建单元，推断可双向进行
功能增强：某些子结构统计共现（如高密度三角形与高阶团的关联）
功能排斥：某些子结构互相排斥（如密集社区与星形枢纽结构不兼容）

局限性与未来方向¶

当前使用无序子结构序列，适合掩码预测；未来可探索有序序列以支持next-token prediction，进一步提升扩展性
随机游走作为在线 tokenizer 缺乏可学习性；未来可设计自适应可学习子结构 tokenizer
异质图上（如 Actor 数据集），增加感受野未必带来提升，暗示某些图的关键信号是局部的

个人思考¶

方法论意义重大：G2PM 证明图学习可以完全脱离消息传递范式，用纯 Transformer + 随机游走 tokenization + 生成式预训练实现 SOTA，这为图基础模型指明了新方向
扩展性是核心卖点：这是第一个在图领域展现类似 NLP/CV 的模型和数据扩展规律的自监督方法，GraphMAE/BGRL 在 3M 参数后即停滞下降，而 G2PM 在 60M 仍在上升
设计空间探索非常全面：消融实验揭示的多条洞察（如 MAE 优于 SimMIM、高掩码比例更好、无需位置编码）对后续工作具有重要指导价值
跨域迁移能力值得关注：通过学习可迁移的子结构模式，G2PM 可以在域和任务边界之间正迁移，这是消息传递方法难以做到的
与 GPM 的关系：G2PM 可视为 GPM（同组前作，ViT 风格子结构建模）的生成式预训练扩展，将对比/监督学习升级为生成式自监督学习