Simple and Efficient Heterogeneous Temporal Graph Neural Network¶

会议: NeurIPS 2025
arXiv: 2510.18467
代码: 暂无
领域: 时间序列
关键词: 异构时序图, 图神经网络, 动态注意力, LLM增强, 时空建模

一句话总结¶

提出 SE-HTGNN，通过动态注意力机制将时序建模融入空间学习，并用 LLM 初始化注意力系数，在异构时序图任务上实现 10 倍加速的同时保持最优预测精度。

研究背景与动机¶

异构时序图（HTG）广泛存在于电商网络、流行病网络和交通网络等场景中，每个时间快照都是一个包含多种节点类型和关系类型的异构图。现有的异构动态图神经网络（HDGNN）面临两个核心问题：

模型复杂度过高：现有方法是在先前框架上的增量改进，不断堆叠注意力层和为每个快照分配独立参数，导致参数量随时间窗口长度线性增长，效率低下。

时空学习解耦导致信息交互不足：现有框架采用两阶段串行策略——先对每个快照进行空间学习，再对空间表示做时序建模。这种解耦导致： - 时序模块接收的是已被"压缩"的空间信息，难以捕获全局时空依赖 - 空间注意力对时间无感知，每个快照独立计算注意力系数，产生注意力不连续性——无法参考历史注意力信息来捕获一致的长期模式

方法详解¶

整体框架¶

SE-HTGNN 包含三个模块：(1) 基于动态注意力的图学习模块，将时序建模融入空间学习；(2) LLM 增强的提示模块，用 LLM 生成的先验知识初始化注意力系数；(3) 线性投影模块，将时空表示映射到未来预测步。

关键设计¶

简化的邻居聚合：摒弃节点级注意力（如 GAT），用非参数化的 GCN 聚合替代。核心观察是同类型邻居在 HTG 中方差较低，无需精细的节点级注意力来区分。聚合公式为：

$$\mathbf{H}^{t}_{v,r} = \sigma(\mathbf{A}_{r}^{t} \mathbf{H}^{t}_{\mathcal{N}_{r}^{t}(v)})$$

其中 $\mathbf{A}_{r}^{t}$ 是关系 $r$ 在时间 $t$ 的归一化邻接矩阵。这大幅减少了参数量，缓解了优化困难。

动态注意力融合：这是本文最核心的贡献。与传统方法在每个快照上独立计算注意力不同，动态注意力利用 GRU 以序列方式生成注意力系数，使历史注意力信息存储在 GRU 隐状态中，引导后续快照的注意力计算：

$$\mathbf{e}^{t}_{v,r} = \text{GRU}_{r}(\mathbf{H}_{v,r}^{t}, \mathbf{e}^{t-1}_{v,r})$$

$$\alpha_{r}^{t} = \frac{\exp(\overline{\mathbf{e}}_{v,r}^{t})}{\sum_{r' \in \mathcal{R}(v)} \exp(\overline{\mathbf{e}}_{v,r'}^{t})}$$

关系级 GRU 独立捕获不同关系的演化趋势。最终表示通过注意力加权融合：$\mathbf{H}_{v}^{t} = \sum_{r} \alpha_{r}^{t} \cdot \mathbf{H}^{t}_{v,r}$。这样时序信息被嵌入空间学习中，无需额外的时序建模模块。

LLM 增强的注意力初始化：GRU 的初始隐状态 $\mathbf{e}^{0}_{v,r}$ 对模型收敛至关重要。本文用 LLM（LLaMA3-8B）为每种节点类型生成语义表示，然后基于源-目标节点类型表示的相似度计算初始注意力系数：

$$\beta_{r} = \mathbf{Q}_{u} \mathbf{K}_{v}^{\top}, \quad \mathbf{e}_{v,r}^{0} = \frac{\exp(\beta_{r})}{\sum_{r'} \exp(\beta_{r'})}$$

由于注意力在关系级别操作，LLM 处理的提示数量取决于节点类型数（非节点总数），计算高效。

损失函数 / 训练策略¶

链接预测：二元交叉熵损失，正负样本对比
节点分类：交叉熵损失，MLP 投影到类别维度
节点回归：MAE 损失
LLM 推理可在预处理阶段完成，不增加训练时内存开销

实验关键数据¶

主实验¶

数据集/任务	指标	SE-HTGNN	CasMLN (前SOTA)	DHGAS	提升
OGBN-MAG (链接预测)	AUC%	93.13	90.85	OOM	+2.11%
OGBN-MAG (链接预测)	AP%	92.71	89.47	OOM	+3.62%
Aminer (链接预测)	AUC%	91.08	88.53	88.13	+2.89%
YELP (节点分类)	Macro-F1%	44.24	42.21	41.99	+4.81%
COVID-19 30天 (节点回归)	MAE↓	497	544	536	+7.27%
COVID-19 90天 (节点回归)	MAE↓	1001	1084	1692	+6.97%

消融实验¶

配置	OGBN-MAG AUC%	Aminer AUC%	YELP F1%	COVID MAE↓
SE-HTGNN (完整)	93.13	91.08	44.24	497
w/o LLM (随机初始化)	90.87	87.91	41.05	542
w/o LLM (零初始化)	91.78	89.98	43.31	524
w/o 动态注意力 (投影注意力)	86.83	85.42	38.19	574
w/o 动态注意力 (门控注意力)	87.94	87.42	38.96	574
w/o 邻居聚合 (无聚合)	83.91	62.47	35.27	672

关键发现¶

动态注意力是最关键组件：去除后性能急剧下降（AUC 降 6%+），证明将时序信息融入注意力计算的重要性
LLM 初始化有效但非必要：零初始化也能取得不错效果，但 LLM 提供的先验知识加速收敛
简化聚合反而更好：非参数 GCN 聚合优于 GAT，说明同类邻居间细粒度注意力不必要
效率优势显著：SE-HTGNN 比 SOTA 基线实现最高 10 倍加速，且不出现 OOM

亮点与洞察¶

范式创新：将时序建模统一到空间学习中，用 GRU 驱动的动态注意力替代传统两阶段解耦框架，是一种简洁优雅的设计
LLM 作为先验知识注入器：不直接用 LLM 做预测，而是提取其语义理解能力初始化注意力，成本低收益高
注意力连续性：解决了快照间注意力不连续的问题，使得注意力系数随时间平滑演化

局限与展望¶

GRU 的序列特性限制了训练并行化，可考虑更高效的时序融合机制
实验未在超大规模 HTG（百万节点级别）上验证
LLM 增强模块依赖预定义的节点类型描述，领域迁移时需手动设计提示

评分¶

新颖性: ⭐⭐⭐⭐ 动态注意力统一时空建模的范式颇具创新性
实验充分度: ⭐⭐⭐⭐⭐ 四种任务、详尽消融和变体分析
写作质量: ⭐⭐⭐⭐ 问题分析清晰，公式推导完整
价值: ⭐⭐⭐⭐ 为异构时序图学习提供了高效且强大的新基线