AAAI2026 自动驾驶交通流预测时空图动态图元学习 GCN GRU 时空异质性

Meta Dynamic Graph for Traffic Flow Prediction¶

会议: AAAI2026
arXiv: 2601.10328
代码: zouyiqing-221/MetaDG
作者: Yiqing Zou, Hanning Yuan, Qianyu Yang, Ziqiang Yuan, Shuliang Wang, Sijie Ruan (Beijing Institute of Technology)
领域: autonomous_driving
关键词: 交通流预测, 时空图, 动态图, 元学习, GCN, GRU, 时空异质性

一句话总结¶

提出MetaDG框架，通过在每个时间步生成动态节点表示并利用时空相关性增强，将动态性建模从仅影响邻接矩阵扩展到同时生成meta参数、邻接矩阵和边权调整矩阵，实现时空异质性的统一建模（ST-unification），在PEMS03/04/07/08四个数据集上达到SOTA。

背景与动机¶

交通流预测是典型的时空预测问题，核心挑战在于建模复杂的时空依赖关系。现有方法如STGCN和GWNet采用时间模型（RNN/CNN）和空间模型（GCN/GAT）的组合，分别捕获时间和空间依赖性。这种"ST-isolated"的分离式架构难以捕获跨维度的复杂时空交互。

近年研究表明动态性建模可以有效桥接时空两个维度：DGCRN为每个时间步生成动态邻接矩阵，PDFormer显式建模传播延迟。但这些方法将动态性的使用局限于空间拓扑（即邻接矩阵的变化），忽略了潜在语义的动态性。实际上，仅关注空间拓扑而忽略隐含语义会严重限制性能。

另一方面，AGCRN、MegaCRN和HimNet等元学习方法通过生成自适应节点表示来建模时空异质性，但其基础模型结构仍是ST-isolated的，导致异质性建模也面临同样的时空分离问题。本文指出：动态性建模可以同时解决ST-isolated和异质性分离两个问题，将两者都推向ST-unification。

核心问题¶

如何将动态性建模从仅影响空间拓扑（邻接矩阵）扩展到更广泛的范围（包括meta参数和边权），同时通过单一的动态节点表示统一时空异质性建模？

方法详解¶

整体框架¶

MetaDG采用Graph Convolutional Recurrent Unit（GCRU）作为encoder-decoder的基本结构，在每个时间步动态生成邻接矩阵和meta参数，包含三个核心模块：

Dynamic Node Generation（DNG）：生成原始动态节点嵌入
Spatio-Temporal Correlation Enhancement（STCE）：增强节点表示的时空相关性
Dynamic Graph Qualification（DGQ）：基于消息传递可靠性精炼邻接矩阵

DNG模块¶

使用可学习的静态节点嵌入\(\boldsymbol{N} \in \mathbb{R}^{N \times d_s}\)，结合当前时间嵌入\(\boldsymbol{T}_t\)和前一步隐状态\(\boldsymbol{H}_{t-1}\)，通过时间驱动的动态门控\(\boldsymbol{\gamma}_t\)生成动态节点嵌入：

\[\boldsymbol{N}_t = \boldsymbol{\gamma}_t \odot \boldsymbol{N} + (1 - \boldsymbol{\gamma}_t) \odot \hat{\boldsymbol{H}}_{t-1}\]

其中\(\boldsymbol{\gamma}_t = \text{sigmoid}(\hat{\boldsymbol{T}_t} \boldsymbol{\Gamma})\)。低\(\boldsymbol{\gamma}_t\)意味着更多依赖动态隐状态，即高灵活性。

STCE模块¶

空间相关性增强（SCE）：使用cross-attention让每个节点从前一时间步的全局节点表示中提取信息：

\[\text{Attn}(\boldsymbol{Q}_t, \boldsymbol{K}_t, \boldsymbol{V}_t) = \text{Softmax}\left(\frac{\boldsymbol{Q}_t \boldsymbol{K}_t^T}{\sqrt{d'}}\right) \boldsymbol{V}_t\]

其中\(\boldsymbol{Q}_t\)来自\(\boldsymbol{N}_t\)，\(\boldsymbol{K}_t\)和\(\boldsymbol{V}_t\)来自\(\boldsymbol{N}_{t-1}\)。注意RNN架构中采用Variational Dropout替代标准Dropout。

时间相关性增强（TCE）：利用GRU的update gate \(\boldsymbol{z}_{t-1}\)融合前后时间步节点表示：

\[\boldsymbol{N}_t^{T_*} = \hat{\boldsymbol{z}}_{t-1} \odot \boldsymbol{N}_{t-1} + (1 - \hat{\boldsymbol{z}}_{t-1}) \odot \boldsymbol{N}_t\]

两者串联为STCE，采用"先融合再平滑"（SCE→TCE）的顺序。

DGQ模块¶

基于跨时间步节点表示相似性度量边的信息传递可靠性，生成边权调整矩阵\(\boldsymbol{\phi}_t\)。高于阈值的边被按比例增强，低于阈值的边被削弱：

\[\tilde{\boldsymbol{A}_t} = \text{asym}(\boldsymbol{\phi}_t \odot \boldsymbol{A}_t)\]

自适应缩放系数\(\boldsymbol{\beta}_t\)通过InstanceNorm和指数函数计算，避免了固定系数的局限。

Meta-DGCRU¶

最终，三个分支分别增强的节点表示\(\boldsymbol{N}_t^p\)、\(\boldsymbol{N}_t^g\)、\(\boldsymbol{N}_t^m\)用于生成： - Meta参数：\(\boldsymbol{\theta}_t = \boldsymbol{N}_t^p \boldsymbol{\Theta}\) - 原始邻接矩阵：\(\boldsymbol{A}_t = \text{ReLU}(\boldsymbol{N}_t^g \cdot {\boldsymbol{N}_t^g}^T)\) - 边权调整矩阵：\(\boldsymbol{\phi}_t\)由\(\boldsymbol{N}_t^m\)生成

实验关键数据¶

总体性能（12步预测）¶

方法	PEMS03 MAE	PEMS04 MAE	PEMS07 MAE	PEMS08 MAE
STGCN	15.91	19.64	21.89	16.09
GWNet	14.62	18.54	20.53	14.41
AGCRN	15.36	19.34	20.57	15.31
DGCRN	14.63	19.09	19.87	14.59
HimNet	15.14	18.31	19.50	13.57
PDFormer	14.92	18.32	19.88	13.64
ST-SSDL	14.56	18.13	19.24	13.88
MetaDG	14.29	17.80	18.79	13.04

消融实验¶

变体	PEMS03 MAE	PEMS04 MAE	PEMS07 MAE	PEMS08 MAE
MetaDG	14.29	17.80	18.79	13.04
w/o SCE	14.88	18.20	19.39	13.33
w/o TCE	14.35	17.87	18.95	13.06
w/o STCE	14.98	18.17	19.28	13.37
w/o DGQ	14.48	17.88	18.91	13.06
TSCE（反序）	14.33	17.92	18.91	13.04
Joined	14.55	18.00	18.93	13.04

效率对比（PEMS03）¶

模型	参数量	训练时间	推理时间
DGCRN	208K	287s	33s
HimNet	2742K	175s	19s
ST-SSDL	234K	172s	19s
MetaDG	666K	250s	23s

亮点¶

动态性建模的范围扩展：将动态性从仅影响邻接矩阵扩展到同时生成meta参数、邻接矩阵和边权调整矩阵，实现更全面的动态建模
ST-unification思想：通过动态节点表示的时空相关性增强，将原本分离的时空异质性建模统一到单一维度，概念清晰且有效
消息传递可靠性精炼（DGQ）：创新性地关注GCRU中图卷积的信息传递质量，通过边权调整矩阵增强可靠边、削弱不可靠边
SCE→TCE的顺序选择有理论支撑：先融合全局历史信息再平滑差异，消融实验验证了该顺序的合理性
长期预测优势明显：per time step分析显示MetaDG在远期预测步上相比基线的优势更加显著

局限与展望¶

计算开销非最低：相比ST-SSDL（234K参数、19s推理），MetaDG参数量（666K）和推理时间（23s）更高，三个独立STCE分支贡献了额外开销
仅在交通流数据上验证：未在其他时空预测任务（如空气质量、人流量、能源消耗等）上验证泛化能力
Cross-attention的\(O(N^2)\)复杂度：SCE模块中的cross-attention对大规模路网（节点数\(N\)很大时）可能成为瓶颈
超参数敏感性：每个数据集需要不同的嵌入维度设置（\(d_s\), \(d_{tod}\), \(d_{dow}\), \(d_c\)），虽然作者指出MetaDG减轻了超参搜索负担，但仍需人工调优

与相关工作的对比¶

vs AGCRN/HimNet（元学习方法）：MetaDG通过动态节点表示而非静态嵌入生成meta参数，在所有数据集上优于这些静态meta-learning方法
vs DGCRN（动态方法）：DGCRN仅生成动态邻接矩阵，MetaDG扩展到meta参数和边权，PEMS03上MAE从14.63降至14.29
vs PDFormer：PDFormer通过self-attention和传播延迟建模动态性，但灵活性较低；MetaDG的每步动态图更为灵活
vs ST-SSDL：最新的自监督偏差学习方法，MetaDG在四个数据集上全面胜出（PEMS04 MAE：18.13→17.80）

启发与关联¶

本文的核心洞察——"动态性可以将ST-isolated推向ST-unification"——具有一般性。在许多时空建模场景中，时间和空间被分离处理是常态，而通过动态节点表示桥接两个维度是一种优雅的统一方式。DGQ模块的信息传递可靠性评估思路也可推广到其他GNN-based模型中，特别是在图结构本身存在噪声的场景。三分支STCE的设计（分别增强不同模型组件的节点表示）体现了"不同目的需要不同视角"的理念。

评分¶

新颖性: ⭐⭐⭐⭐ — ST-unification思想新颖，DGQ模块有创意，但整体框架仍基于GCRU
实验充分度: ⭐⭐⭐⭐ — 四个标准数据集全面评测，消融和效率分析完整，但缺少跨领域验证
写作质量: ⭐⭐⭐⭐ — 动机阐述清晰，ST-isolated到ST-unification的论述线有说服力
价值: ⭐⭐⭐⭐ — 代码开源，四个数据集SOTA，对时空预测社区有较好的参考价值