跳转至

Supercharging Graph Transformers with Advective Diffusion

会议: ICML 2025
arXiv: 2310.06417
代码: GitHub
领域: 图学习 / 图神经网络
关键词: Graph Transformer、对流扩散方程、拓扑分布偏移、泛化理论、PDE启发架构

一句话总结

提出 Advective Diffusion Transformer(AdvDIFFormer),一种物理启发的图Transformer模型,通过结合非局部扩散(全局注意力)和对流(局部消息传递)两种机制,在拓扑分布偏移下具有可证明的泛化误差控制能力,优于仅依赖局部扩散的GNN。

研究背景与动机

领域现状

领域现状:图学习的泛化挑战**:现有GNN和图Transformer大多在封闭世界假设下研究,即训练和测试图拓扑来自相同分布

现有痛点

现有痛点:拓扑分布偏移**:实际场景中(如不同药物相似性的分子结构、不同地理区域的社交网络),训练和测试阶段的图拓扑结构可能来自不同分布

核心矛盾

核心矛盾:GNN = 局部扩散**:GNN可视为图上局部扩散方程的离散化,其节点表示随拓扑变化呈指数增长,泛化误差上界随拓扑偏移指数膨胀

解决思路

解决思路:图Transformer = 非局部扩散**:全局注意力对应完全图上的非局部扩散,对拓扑不敏感但忽略了有用的结构信息

补充说明

补充说明:核心问题**:能否设计一种模型同时利用观测拓扑信息又对拓扑偏移具有鲁棒性?

物理直觉:河流中的盐分浓度演化由扩散(浓度梯度驱动、本征属性)和对流(水流方向驱动、外部环境)共同决定——类比到图上,扩散捕获内在潜在交互,对流利用观测图结构。

方法详解

整体框架

模型基于图上的对流扩散方程

\[\frac{\partial \mathbf{Z}(t)}{\partial t} = [\mathbf{C} + \beta\mathbf{V} - \mathbf{I}]\mathbf{Z}(t), \quad 0 \le t \le T\]

其中: - \(\mathbf{Z}(0) = \phi_{enc}(\mathbf{X})\):MLP编码后的初始节点特征 - \(\mathbf{C}\):全局注意力矩阵(非局部扩散项),学习潜在交互 - \(\mathbf{V} = \mathbf{D}^{-1/2}\mathbf{A}\mathbf{D}^{-1/2}\):归一化邻接矩阵(对流项),编码观测拓扑 - \(\beta \in [0,1]\):对流权重超参数 - 闭式解:\(\mathbf{Z}(t) = e^{-(\mathbf{I}-\mathbf{C}-\beta\mathbf{V})t}\mathbf{Z}(0)\)

关键设计

1. 非局部扩散 → 全局注意力

\[c_{uv} = \frac{\eta(\mathbf{z}_u(0), \mathbf{z}_v(0))}{\sum_{w \in \mathcal{V}} \eta(\mathbf{z}_u(0), \mathbf{z}_w(0))}\]
  • \(\eta\):可学习的成对相似度函数
  • 在完全图上定义梯度/散度算子,允许任意节点对之间的信息流
  • 物理类比:分子扩散系数在不同环境中保持不变

2. 对流 → 局部消息传递

  • 速度场 \(\mathbf{V}\) 直接使用归一化邻接矩阵
  • 物理类比:水流方向取决于具体环境(河流),类比于环境相关的图拓扑

3. 两种高效实现

  • AdvDIFFormer-i(基于Padé-Chebyshev理论):通过求解线性系统 \(\mathbf{L}_h^{-1}\mathbf{Z}(0)\) 近似矩阵指数,多头并行
  • AdvDIFFormer-s(基于几何级数展开):聚合K阶传播结果 \([\mathbf{Z}(0), \mathbf{P}_h\mathbf{Z}(0), ..., \mathbf{P}_h^K\mathbf{Z}(0)]\),具有线性复杂度,适合大规模图

损失函数 / 训练策略

  • 标准交叉熵/MSE损失(取决于下游任务)
  • 超参数 \(\beta\) 控制对流强度,\(\theta\) 控制线性系统的正则化
  • AdvDIFFormer-s中K为传播阶数(类似GNN层数)

实验关键数据

主实验

合成数据(验证理论): - 随机块模型生成图,模拟三种拓扑偏移:同质性偏移、密度偏移、块数偏移 - 局部扩散模型(GCN类)的测试误差随 \(\|\Delta\tilde{\mathbf{A}}\|_2\) 超线性增长 - AdvDIFFormer的测试误差几乎保持恒定

信息网络

方法 Arxiv(2018) Arxiv(2019) Arxiv(2020) Twitch(avg)
GCN 50.14 48.06 46.46 59.76
GraphGPS 51.11 48.91 46.46 62.13
DIFFormer 50.45 47.37 44.30 62.11
AdvDIFFormer-s 53.41 51.53 49.64 62.51
  • 在Arxiv数据集上相比最佳基线提升约1-3%准确率

蛋白质交互网络(节点回归):

方法 Test Average RMSE Test Worst RMSE
MLP 0.672 0.768
DIFFormer 0.637 0.710
AdvDIFFormer-s 0.574 0.644

消融实验

  • \(\beta\) 分析:Arxiv上最优 \(\beta \in [0.7, 1.0]\)(图结构有用);DPPIN节点回归最优 \(\beta=0\)(图结构无信息)
  • \(\beta\) 过大(>2.0)导致泛化下降——过度依赖环境相关的拓扑
  • 说明模型可灵活调整结构信息的使用程度

关键发现

  • 在分子映射算子生成任务中,AdvDIFFormer-s从小分子外推到大分子时,分割精度显著优于GCN/GAT
  • 非局部扩散模型(Diff-NonLocal)稳定但表达力不足,验证了对流项的必要性

亮点与洞察

  1. 理论贡献突出:证明对流扩散模型可将泛化误差控制为拓扑偏移的任意多项式阶(Theorem 3.2),而局部扩散模型的上界是指数增长(Prop 3.4)
  2. 物理直觉优美:将扩散(环境不变的内在交互)和对流(环境相关的外部驱动)的物理概念巧妙映射到图学习
  3. 大规模可扩展:AdvDIFFormer-s的线性复杂度使其适用于0.2M节点的大图
  4. 统一视角:将GNN(局部扩散)、图Transformer(非局部扩散)统一在对流扩散方程框架下

局限与展望

  • 当前分析针对线性扩散方程(固定 \(\mathbf{C}\)),非线性时变 \(\mathbf{C}(\mathbf{Z}(t))\) 的理论分析留待未来
  • \(\beta\) 需要hand-tune,缺乏自适应机制
  • 实验仅考虑节点级任务,图级任务(如分子性质预测)的泛化分析尚未涉及
  • 密度偏移和同质性偏移的实验设置较为简化,真实世界的拓扑偏移可能更复杂
  • 理论保证依赖于数据生成假设(graphon模型),对实际数据的适用性需进一步验证

相关工作与启发

  • Chamberlain et al. (2021a/b):GRAND系列,将GNN解释为扩散方程,本文扩展到对流扩散
  • Wu et al. (2023):DIFFormer,非局部扩散作为图Transformer,本文的"无对流"特例
  • Bodnar et al. (2022):利用PDE研究GNN表达力
  • Kipf & Welling (2017):GCN,对应局部扩散的离散化
  • Di Giovanni et al. (2022):PDE引导的图网络架构选择

启发:PDE框架为理解图学习模型的能力和局限提供了强大理论工具,对流扩散方程的引入开辟了通过物理先验增强泛化的新思路。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次从对流扩散方程角度统一GNN与Graph Transformer,提供可证明的泛化保证
  • 实验充分度: ⭐⭐⭐⭐ — 合成+多领域真实数据(社交、蛋白质、分子),但缺少图分类任务
  • 写作质量: ⭐⭐⭐⭐⭐ — 理论与直觉完美结合,物理类比深入浅出
  • 价值: ⭐⭐⭐⭐⭐ — 为图学习中的分布偏移泛化提供了理论基础和实用模型

相关论文