跳转至

Self-Adaptive Graph Mixture of Models

会议: AAAI 2026
arXiv: 2511.13062
代码: SAGMM
领域: 图学习
关键词: 图神经网络, 混合专家, 自适应门控, 专家剪枝, 拓扑感知注意力

一句话总结

提出 SAGMM(Self-Adaptive Graph Mixture of Models),一个利用架构多样性的图 MoE 框架,通过拓扑感知注意力门控(TAAG)自适应选择和组合异构 GNN 专家,配合自适应剪枝机制,在 16 个基准上覆盖节点分类、图分类、回归和链接预测,一致超越单一 GNN 和已有 MoE 方法。

研究背景与动机

领域现状:GNN 架构已取得长足进展,但性能提升趋于饱和。近期研究发现,经过适当调参的经典模型(GCN、GAT、GraphSAGE)在节点分类等任务上可以匹配甚至超越最新的 Graph Transformer,说明不同模型学到了表示空间的不同子区域但各自覆盖不足。

现有痛点:(1)为特定数据集选择最佳 GNN 需要大量试错和超参调优,许多模型训练后被丢弃;(2)现有图 MoE 方法(如 GMoE、DA-MoE)使用同一基础模型的变体作为专家,架构多样性有限;(3)门控机制基于简单线性投影,忽略图拓扑结构信息;(4)Top-k 路由强制所有节点激活相同数量的专家,与节点的实际需求不匹配。

核心矛盾:单一 GNN 无法覆盖所有图结构模式(No Free Lunch 定理),但简单的专家混合又缺乏拓扑感知的自适应选择能力。

核心 idea:用架构异构的 GNN 池(GCN、GAT、GraphSAGE、GIN 等)作为专家,通过拓扑感知的稀疏注意力门控让每个节点自适应选择相关专家的数量和组合。

方法详解

整体框架

SAGMM 包含三个核心组件:(1)异构专家池——多种 GNN 架构作为专家;(2)拓扑感知注意力门控(TAAG)——基于局部+全局图结构信息动态路由;(3)自适应专家剪枝——训练过程中移除低重要性专家。输入特征首先增强结构上下文,TAAG 计算每个节点对每个专家的注意力分数,选中的专家处理输入并将输出通过门控权重加权聚合。

关键设计

  1. 异构专家池(Pool of Experts):

    • 功能:使用架构完全不同的 GNN 模型作为专家,最大化归纳偏置的多样性
    • 核心思路:按三个维度(传播策略:谱域/空间域、聚合机制:均值/注意力、训练方式:直推/归纳)选择专家池,包含 GCN(谱域滤波)、GAT(注意力加权)、GraphSAGE(归纳采样)、GIN(WL测试近似)、JKNet(跳跃连接)等。每个专家的消息传递更新为 \(H^{(l+1)}_{e_i} = f_{e_i}(H^{(l)}_{e_i}, A)\)
    • 设计动机:异构专家提供互补视角——GCN 擅长同质图、GAT 捕捉注意力模式、GraphSAGE 适合大图。No Free Lunch 定理保证没有单一模型全局最优
  2. 拓扑感知注意力门控(TAAG):

    • 功能:让每个节点根据局部和全局图结构信息自适应选择专家数量和组合
    • 核心思路:输入特征增强为 \(\mathbf{X'} = \frac{1}{3}(\mathbf{X} + \mathbf{X}^{(1)} + \mathbf{X}^{(2)}) \| \mathbf{X}^{(g)}\),其中 \(\mathbf{X}^{(1)}, \mathbf{X}^{(2)}\) 为 1-hop 和 2-hop 聚合特征,\(\mathbf{X}^{(g)}\) 为归一化拉普拉斯的最小 \(p\) 个特征向量(全局位置编码)。使用 SGA(Simple Global Attention)以线性复杂度 \(O(n)\) 计算门控分数 \(Z\),再通过可学习阈值 \(T\) 和 sigmoid 筛选:\(M = \text{sign}(\text{ReLU}(\sigma(Z) - \sigma(T)))\),每个节点 \(u\) 激活 \(k_u = |\{j | M_{u,j} > 0\}|\) 个专家
    • 设计动机:克服 Top-k 强制固定专家数的限制;SGA 的线性复杂度使其可扩展到大图;局部+全局特征让门控同时感知邻域结构和图全局位置
  3. 自适应专家剪枝:

    • 功能:训练过程中动态移除低贡献专家,提高效率
    • 核心思路:重要性分数递推更新 \(I_t(e_i) = (1-\alpha)I_{t-1}(e_i) + \alpha \gamma(e_i)\),其中 \(\gamma(e_i) = \|\sum_u G_{e_i,u} H_{e_i,u,:}\|\) 为专家对模型输出的累积加权贡献。低于阈值 \(\eta\) 的专家被移除
    • 设计动机:平滑因子 \(\alpha\) 防止过早移除后期有用的专家;实验表明剪枝后性能基本不降但计算效率提升

损失函数 / 训练策略

任务损失 + 重要性损失(鼓励均匀专家利用)+ 多样性损失(鼓励正交专家激活模式)。支持两种变体:端到端训练和预训练冻结专家(SAGMM-PE),后者仅训练门控和任务头。

实验关键数据

节点分类主实验

方法 Deezer YelpChi ogbn-proteins ogbn-arxiv Pokec
GCN 57.70 85.62 69.74 71.74 76.52
GAT 58.59 85.42 69.56 71.42 78.87
GraphSAGE 64.40 89.23 73.21 71.46 79.82
Graph CNN 63.65 89.25 77.54 72.04 80.21
GMoE-GCN 61.11 85.75 74.48 71.88 76.04
DA-MoE 62.15 85.53 75.22 71.96 64.87
SAGMM 64.73 91.06 78.15 72.80 82.25

消融实验

配置 ogbn-arxiv ogbn-proteins 说明
SAGMM (完整) 72.80 78.15 -
替换为 Top-2 门控 72.18 76.45 TAAG优势
替换为 Top-4 门控 72.01 77.02 固定k不如自适应
单一专家 (最佳) 72.04 77.54 混合优于单一
无剪枝 72.65 77.89 剪枝略提升效率

关键发现

  • SAGMM 在 16 个基准(节点分类 + 图分类 + 回归 + 链接预测)上一致超越所有单一 GNN 和 MoE 方法
  • 不同节点确实激活不同数量的专家(如 ogbn-proteins 上 \(k_u\) 分布从 1 到 7 不等),验证了自适应选择的必要性
  • SAGMM-PE(预训练冻结专家)以 50-70% 训练数据即可达到可比性能,表明框架具有良好的数据效率
  • TAAG 门控比 Top-k 门控平均高 0.5-1.5%,局部+全局特征的组合是关键

亮点与洞察

  • 模型选择的自动化:SAGMM 将"为数据选最佳 GNN"的试错过程自动化为端到端学习,实用价值大
  • 架构异构性的利用:与同构 MoE(如 GMoE 用同类 GCN 变体)不同,SAGMM 利用根本不同的架构(GCN+GAT+SAGE+GIN+...),互补性更强
  • 可学习阈值替代 Top-k:阈值 \(T\) 自动学习每个节点激活几个专家,优于人工设定的固定 \(k\)
  • 预训练专家复用:SAGMM-PE 可以零成本利用已有的废弃模型,避免计算浪费

局限与展望

  • 专家池组成的影响:论文固定了专家池内容(GCN+GAT+SAGE 等),不同池组合对性能的影响未充分分析
  • 训练开销:端到端训练需要同时运行所有专家前向传播,内存和计算开销可观
  • 大规模图的效率:虽然 SGA 是 O(n),但预计算拉普拉斯特征向量在超大图上仍然昂贵
  • 异质图和动态图:实验仅涉及同质/异质静态图,时序图和异质信息网络未评估
  • 与 Graph Transformer 的融合:专家池中未包含 Graph Transformer,可能遗漏了其独特表示能力

相关工作与启发

  • vs GMoE: GMoE 用同一 GCN 的变体作为专家,架构多样性有限且门控不感知拓扑。SAGMM 的异构池+TAAG 在概念和实验上都更强
  • vs DA-MoE: DA-MoE 用 GNN 层为专家但不支持动态选择,SAGMM 的自适应 \(k_u\) 和剪枝更灵活
  • vs 传统集成学习: SAGMM 不是简单的 bagging/boosting,而是通过注意力门控实现输入条件化的专家选择
  • 对 LLM MoE 的借鉴: TAAG 的可学习阈值替代 Top-k 的思路可能对 LLM 中的 MoE 路由也有启发

评分

  • 新颖性: ⭐⭐⭐⭐ 异构专家池+拓扑感知自适应门控的组合是有意义的创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 16个基准、4种任务类型、完整消融和变体分析,非常充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,背景分析透彻,理论分析简洁
  • 价值: ⭐⭐⭐⭐ 对图学习的模型选择自动化有直接实用价值

相关论文