Simple and Efficient Heterogeneous Temporal Graph Neural Network¶
会议: NeurIPS 2025
arXiv: 2510.18467
代码: 暂无
领域: 时间序列
关键词: 异构时序图, 图神经网络, 动态注意力, LLM增强, 时空建模
一句话总结¶
提出 SE-HTGNN,通过动态注意力机制将时序建模融入空间学习,并用 LLM 初始化注意力系数,在异构时序图任务上实现 10 倍加速的同时保持最优预测精度。
研究背景与动机¶
异构时序图(HTG)广泛存在于电商网络、流行病网络和交通网络等场景中,每个时间快照都是一个包含多种节点类型和关系类型的异构图。现有的异构动态图神经网络(HDGNN)面临两个核心问题:
模型复杂度过高:现有方法是在先前框架上的增量改进,不断堆叠注意力层和为每个快照分配独立参数,导致参数量随时间窗口长度线性增长,效率低下。
时空学习解耦导致信息交互不足:现有框架采用两阶段串行策略——先对每个快照进行空间学习,再对空间表示做时序建模。这种解耦导致: - 时序模块接收的是已被"压缩"的空间信息,难以捕获全局时空依赖 - 空间注意力对时间无感知,每个快照独立计算注意力系数,产生注意力不连续性——无法参考历史注意力信息来捕获一致的长期模式
方法详解¶
整体框架¶
SE-HTGNN 包含三个模块:(1) 基于动态注意力的图学习模块,将时序建模融入空间学习;(2) LLM 增强的提示模块,用 LLM 生成的先验知识初始化注意力系数;(3) 线性投影模块,将时空表示映射到未来预测步。
关键设计¶
- 简化的邻居聚合:摒弃节点级注意力(如 GAT),用非参数化的 GCN 聚合替代。核心观察是同类型邻居在 HTG 中方差较低,无需精细的节点级注意力来区分。聚合公式为:
$\(\mathbf{H}^{t}_{v,r} = \sigma(\mathbf{A}_{r}^{t} \mathbf{H}^{t}_{\mathcal{N}_{r}^{t}(v)})\)$
其中 \(\mathbf{A}_{r}^{t}\) 是关系 \(r\) 在时间 \(t\) 的归一化邻接矩阵。这大幅减少了参数量,缓解了优化困难。
- 动态注意力融合:这是本文最核心的贡献。与传统方法在每个快照上独立计算注意力不同,动态注意力利用 GRU 以序列方式生成注意力系数,使历史注意力信息存储在 GRU 隐状态中,引导后续快照的注意力计算:
$\(\mathbf{e}^{t}_{v,r} = \text{GRU}_{r}(\mathbf{H}_{v,r}^{t}, \mathbf{e}^{t-1}_{v,r})\)$
$\(\alpha_{r}^{t} = \frac{\exp(\overline{\mathbf{e}}_{v,r}^{t})}{\sum_{r' \in \mathcal{R}(v)} \exp(\overline{\mathbf{e}}_{v,r'}^{t})}\)$
关系级 GRU 独立捕获不同关系的演化趋势。最终表示通过注意力加权融合:\(\mathbf{H}_{v}^{t} = \sum_{r} \alpha_{r}^{t} \cdot \mathbf{H}^{t}_{v,r}\)。这样时序信息被嵌入空间学习中,无需额外的时序建模模块。
- LLM 增强的注意力初始化:GRU 的初始隐状态 \(\mathbf{e}^{0}_{v,r}\) 对模型收敛至关重要。本文用 LLM(LLaMA3-8B)为每种节点类型生成语义表示,然后基于源-目标节点类型表示的相似度计算初始注意力系数:
$\(\beta_{r} = \mathbf{Q}_{u} \mathbf{K}_{v}^{\top}, \quad \mathbf{e}_{v,r}^{0} = \frac{\exp(\beta_{r})}{\sum_{r'} \exp(\beta_{r'})}\)$
由于注意力在关系级别操作,LLM 处理的提示数量取决于节点类型数(非节点总数),计算高效。
损失函数 / 训练策略¶
- 链接预测:二元交叉熵损失,正负样本对比
- 节点分类:交叉熵损失,MLP 投影到类别维度
- 节点回归:MAE 损失
- LLM 推理可在预处理阶段完成,不增加训练时内存开销
实验关键数据¶
主实验¶
| 数据集/任务 | 指标 | SE-HTGNN | CasMLN (前SOTA) | DHGAS | 提升 |
|---|---|---|---|---|---|
| OGBN-MAG (链接预测) | AUC% | 93.13 | 90.85 | OOM | +2.11% |
| OGBN-MAG (链接预测) | AP% | 92.71 | 89.47 | OOM | +3.62% |
| Aminer (链接预测) | AUC% | 91.08 | 88.53 | 88.13 | +2.89% |
| YELP (节点分类) | Macro-F1% | 44.24 | 42.21 | 41.99 | +4.81% |
| COVID-19 30天 (节点回归) | MAE↓ | 497 | 544 | 536 | +7.27% |
| COVID-19 90天 (节点回归) | MAE↓ | 1001 | 1084 | 1692 | +6.97% |
消融实验¶
| 配置 | OGBN-MAG AUC% | Aminer AUC% | YELP F1% | COVID MAE↓ |
|---|---|---|---|---|
| SE-HTGNN (完整) | 93.13 | 91.08 | 44.24 | 497 |
| w/o LLM (随机初始化) | 90.87 | 87.91 | 41.05 | 542 |
| w/o LLM (零初始化) | 91.78 | 89.98 | 43.31 | 524 |
| w/o 动态注意力 (投影注意力) | 86.83 | 85.42 | 38.19 | 574 |
| w/o 动态注意力 (门控注意力) | 87.94 | 87.42 | 38.96 | 574 |
| w/o 邻居聚合 (无聚合) | 83.91 | 62.47 | 35.27 | 672 |
关键发现¶
- 动态注意力是最关键组件:去除后性能急剧下降(AUC 降 6%+),证明将时序信息融入注意力计算的重要性
- LLM 初始化有效但非必要:零初始化也能取得不错效果,但 LLM 提供的先验知识加速收敛
- 简化聚合反而更好:非参数 GCN 聚合优于 GAT,说明同类邻居间细粒度注意力不必要
- 效率优势显著:SE-HTGNN 比 SOTA 基线实现最高 10 倍加速,且不出现 OOM
亮点与洞察¶
- 范式创新:将时序建模统一到空间学习中,用 GRU 驱动的动态注意力替代传统两阶段解耦框架,是一种简洁优雅的设计
- LLM 作为先验知识注入器:不直接用 LLM 做预测,而是提取其语义理解能力初始化注意力,成本低收益高
- 注意力连续性:解决了快照间注意力不连续的问题,使得注意力系数随时间平滑演化
局限与展望¶
- GRU 的序列特性限制了训练并行化,可考虑更高效的时序融合机制
- 实验未在超大规模 HTG(百万节点级别)上验证
- LLM 增强模块依赖预定义的节点类型描述,领域迁移时需手动设计提示
相关工作与启发¶
本文连接了静态异构 GNN(HAN、SeHGNN)和动态图网络(DyHATR、HTGNN),证明简化架构+统一时空建模优于复杂的堆叠设计。LLM 作为图学习先验的思路可推广到其他图任务。
评分¶
- 新颖性: ⭐⭐⭐⭐ 动态注意力统一时空建模的范式颇具创新性
- 实验充分度: ⭐⭐⭐⭐⭐ 四种任务、详尽消融和变体分析
- 写作质量: ⭐⭐⭐⭐ 问题分析清晰,公式推导完整
- 价值: ⭐⭐⭐⭐ 为异构时序图学习提供了高效且强大的新基线
相关论文¶
- [NeurIPS 2025] A Graph Neural Network Approach for Localized and High-Resolution Temperature Forecasting
- [ICML 2025] TQNet: Temporal Query Network for Efficient Multivariate Time Series Forecasting
- [NeurIPS 2025] Neural MJD: Neural Non-Stationary Merton Jump Diffusion for Time Series Prediction
- [ICML 2025] HyperIMTS: Hypergraph Neural Network for Irregular Multivariate Time Series Forecasting
- [NeurIPS 2025] Exploring Neural Granger Causality with xLSTMs: Unveiling Temporal Dependencies in Complex Data