跳转至

Simple and Efficient Heterogeneous Temporal Graph Neural Network

会议: NeurIPS 2025
arXiv: 2510.18467
代码: 暂无
领域: 时间序列
关键词: 异构时序图, 图神经网络, 动态注意力, LLM增强, 时空建模

一句话总结

提出 SE-HTGNN,通过动态注意力机制将时序建模融入空间学习,并用 LLM 初始化注意力系数,在异构时序图任务上实现 10 倍加速的同时保持最优预测精度。

研究背景与动机

异构时序图(HTG)广泛存在于电商网络、流行病网络和交通网络等场景中,每个时间快照都是一个包含多种节点类型和关系类型的异构图。现有的异构动态图神经网络(HDGNN)面临两个核心问题:

模型复杂度过高:现有方法是在先前框架上的增量改进,不断堆叠注意力层和为每个快照分配独立参数,导致参数量随时间窗口长度线性增长,效率低下。

时空学习解耦导致信息交互不足:现有框架采用两阶段串行策略——先对每个快照进行空间学习,再对空间表示做时序建模。这种解耦导致: - 时序模块接收的是已被"压缩"的空间信息,难以捕获全局时空依赖 - 空间注意力对时间无感知,每个快照独立计算注意力系数,产生注意力不连续性——无法参考历史注意力信息来捕获一致的长期模式

方法详解

整体框架

SE-HTGNN 包含三个模块:(1) 基于动态注意力的图学习模块,将时序建模融入空间学习;(2) LLM 增强的提示模块,用 LLM 生成的先验知识初始化注意力系数;(3) 线性投影模块,将时空表示映射到未来预测步。

关键设计

  1. 简化的邻居聚合:摒弃节点级注意力(如 GAT),用非参数化的 GCN 聚合替代。核心观察是同类型邻居在 HTG 中方差较低,无需精细的节点级注意力来区分。聚合公式为:

$\(\mathbf{H}^{t}_{v,r} = \sigma(\mathbf{A}_{r}^{t} \mathbf{H}^{t}_{\mathcal{N}_{r}^{t}(v)})\)$

其中 \(\mathbf{A}_{r}^{t}\) 是关系 \(r\) 在时间 \(t\) 的归一化邻接矩阵。这大幅减少了参数量,缓解了优化困难。

  1. 动态注意力融合:这是本文最核心的贡献。与传统方法在每个快照上独立计算注意力不同,动态注意力利用 GRU 以序列方式生成注意力系数,使历史注意力信息存储在 GRU 隐状态中,引导后续快照的注意力计算:

$\(\mathbf{e}^{t}_{v,r} = \text{GRU}_{r}(\mathbf{H}_{v,r}^{t}, \mathbf{e}^{t-1}_{v,r})\)$

$\(\alpha_{r}^{t} = \frac{\exp(\overline{\mathbf{e}}_{v,r}^{t})}{\sum_{r' \in \mathcal{R}(v)} \exp(\overline{\mathbf{e}}_{v,r'}^{t})}\)$

关系级 GRU 独立捕获不同关系的演化趋势。最终表示通过注意力加权融合:\(\mathbf{H}_{v}^{t} = \sum_{r} \alpha_{r}^{t} \cdot \mathbf{H}^{t}_{v,r}\)。这样时序信息被嵌入空间学习中,无需额外的时序建模模块。

  1. LLM 增强的注意力初始化:GRU 的初始隐状态 \(\mathbf{e}^{0}_{v,r}\) 对模型收敛至关重要。本文用 LLM(LLaMA3-8B)为每种节点类型生成语义表示,然后基于源-目标节点类型表示的相似度计算初始注意力系数:

$\(\beta_{r} = \mathbf{Q}_{u} \mathbf{K}_{v}^{\top}, \quad \mathbf{e}_{v,r}^{0} = \frac{\exp(\beta_{r})}{\sum_{r'} \exp(\beta_{r'})}\)$

由于注意力在关系级别操作,LLM 处理的提示数量取决于节点类型数(非节点总数),计算高效。

损失函数 / 训练策略

  • 链接预测:二元交叉熵损失,正负样本对比
  • 节点分类:交叉熵损失,MLP 投影到类别维度
  • 节点回归:MAE 损失
  • LLM 推理可在预处理阶段完成,不增加训练时内存开销

实验关键数据

主实验

数据集/任务 指标 SE-HTGNN CasMLN (前SOTA) DHGAS 提升
OGBN-MAG (链接预测) AUC% 93.13 90.85 OOM +2.11%
OGBN-MAG (链接预测) AP% 92.71 89.47 OOM +3.62%
Aminer (链接预测) AUC% 91.08 88.53 88.13 +2.89%
YELP (节点分类) Macro-F1% 44.24 42.21 41.99 +4.81%
COVID-19 30天 (节点回归) MAE↓ 497 544 536 +7.27%
COVID-19 90天 (节点回归) MAE↓ 1001 1084 1692 +6.97%

消融实验

配置 OGBN-MAG AUC% Aminer AUC% YELP F1% COVID MAE↓
SE-HTGNN (完整) 93.13 91.08 44.24 497
w/o LLM (随机初始化) 90.87 87.91 41.05 542
w/o LLM (零初始化) 91.78 89.98 43.31 524
w/o 动态注意力 (投影注意力) 86.83 85.42 38.19 574
w/o 动态注意力 (门控注意力) 87.94 87.42 38.96 574
w/o 邻居聚合 (无聚合) 83.91 62.47 35.27 672

关键发现

  1. 动态注意力是最关键组件:去除后性能急剧下降(AUC 降 6%+),证明将时序信息融入注意力计算的重要性
  2. LLM 初始化有效但非必要:零初始化也能取得不错效果,但 LLM 提供的先验知识加速收敛
  3. 简化聚合反而更好:非参数 GCN 聚合优于 GAT,说明同类邻居间细粒度注意力不必要
  4. 效率优势显著:SE-HTGNN 比 SOTA 基线实现最高 10 倍加速,且不出现 OOM

亮点与洞察

  • 范式创新:将时序建模统一到空间学习中,用 GRU 驱动的动态注意力替代传统两阶段解耦框架,是一种简洁优雅的设计
  • LLM 作为先验知识注入器:不直接用 LLM 做预测,而是提取其语义理解能力初始化注意力,成本低收益高
  • 注意力连续性:解决了快照间注意力不连续的问题,使得注意力系数随时间平滑演化

局限与展望

  1. GRU 的序列特性限制了训练并行化,可考虑更高效的时序融合机制
  2. 实验未在超大规模 HTG(百万节点级别)上验证
  3. LLM 增强模块依赖预定义的节点类型描述,领域迁移时需手动设计提示

相关工作与启发

本文连接了静态异构 GNN(HAN、SeHGNN)和动态图网络(DyHATR、HTGNN),证明简化架构+统一时空建模优于复杂的堆叠设计。LLM 作为图学习先验的思路可推广到其他图任务。

评分

  • 新颖性: ⭐⭐⭐⭐ 动态注意力统一时空建模的范式颇具创新性
  • 实验充分度: ⭐⭐⭐⭐⭐ 四种任务、详尽消融和变体分析
  • 写作质量: ⭐⭐⭐⭐ 问题分析清晰,公式推导完整
  • 价值: ⭐⭐⭐⭐ 为异构时序图学习提供了高效且强大的新基线

相关论文