Dual-branch Spatial-Temporal Self-supervised Representation for Enhanced Road Network Learning¶
会议: AAAI 2026
arXiv: 2511.06633
代码: 有
领域: 自动驾驶
关键词: 路网表示学习, 自监督学习, 图神经网络, 超图, 时空建模
一句话总结¶
提出 DST(Dual-branch Spatial-Temporal)路网表示学习框架,通过空间分支(mix-hop 转移矩阵 + 图-超图对比学习)和时间分支(Transformer 编码器 + 下一 token 预测 + 工作日/周末分类)两条支路联合建模路网的空间异质性和时间动态性,在三个城市的三项下游任务上取得 SOTA。
研究背景与动机¶
路网表示学习(Road Network Representation Learning, RNRL)旨在为路段学习通用低维向量表示,赋能交通推理、出行时间估计、轨迹目的地预测等下游任务。现有方法面临两大挑战:
1. 空间异质性:路段相似性不仅取决于地理距离,还涉及功能属性、轨迹可达性等多维度关系。例如远距离的两条路段可能具有相似的功能(如都是住宅区道路),而相邻路段功能可能完全不同。GNN 的邻域平滑机制难以捕获这种长距离的功能相似性。
2. 时间动态性:不同类型路段在不同时段表现出显著差异的交通模式,且工作日与周末的模式截然不同。仅凭路网拓扑无法充分表征这种时间维度的动态变化。
早期方法(Node2Vec, GCN, GAE)局限于简单图结构;近期方法(Toast, JCLRNT, TrajRNE)开始利用轨迹信息但缺乏时间建模;DyToast 加入了三角时间特征但在速度推理任务中表现退化。
方法详解¶
整体框架¶
DST 采用双分支架构,空间分支和时间分支独立预训练,最终融合用于下游任务:
- 空间分支:GNN + 超图对比学习 → 捕获路网空间拓扑和高阶语义关系
- 时间分支:Transformer 编码器 + 双任务自监督 → 建模 24 小时交通动态模式
- 融合策略:拼接(concatenation)三种表示用于下游任务
关键设计¶
1. Mix-hop 转移矩阵加权
从轨迹数据中提取路段间的多跳到达关系,构建 mix-hop 转移矩阵:
权重策略:跳数越小初始权重越大、跳数越大权重越小,既强调相邻连接、又纳入可达的远距离连接。行归一化后作为可学习权重矩阵初始化,用于 GNN 前的特征加权:
2. 空间语义图-超图对比学习
两个视角构建路网表示:
图视角:多层 GAT 编码路网拓扑结构,同时利用边特征 \(X_\mathcal{E}\)(路段间连接属性),生成空间表示 \(Z_\mathcal{G}\)。
超图视角:构建三种超边捕获高阶关系: - \(\mathcal{E}_{\mathcal{H}_1}\):功能区域超边——对路段做谱聚类,同一簇的路段共享超边 - \(\mathcal{E}_{\mathcal{H}_2}\):同类型超边——相同类型的路段不论距离远近共享超边 - \(\mathcal{E}_{\mathcal{H}_3}\):相邻单向超边——地理相邻的单向道路共享超边(Tobler 地理第一定律)
通过 HGNN+ 编码超图,生成语义表示 \(Z_\mathcal{H}\)。
对比学习最大化两个视角同一路段表示的互信息:
3. 时间动态建模
交通动态定义为 \(\mathcal{D}_\mathcal{R} \in \mathbb{R}^{N \times 24 \times 2}\),即每条路段 24 小时的访问量序列(工作日/周末两通道)。
Transformer 编码器取最后隐状态作为序列压缩表示:
联合两个自监督任务: - 动态预测(回归):用历史序列预测下一时步的交通量 $\(\mathcal{L}_{reg} = \frac{1}{N \times C}\sum_{i=1}^{N \times C}\|y_i - \hat{y}_i\|^2\)$ - 动态分类:区分输入序列是工作日还是周末 $\(\mathcal{L}_{cls} = -\frac{1}{N \times C}\sum_{i}\sum_c y_i(c)\log(\hat{y}_i(c))\)$
损失函数 / 训练策略¶
时间分支总损失:\(\mathcal{L}_d = \lambda_{reg} \cdot \mathcal{L}_{reg} + \lambda_{cls} \cdot \mathcal{L}_{cls}\)
空间分支与时间分支分别预训练,最终通过拼接融合三种表示(\(Z_\mathcal{G}, Z_\mathcal{H}, Z_\mathcal{D}\))用于下游任务。参数敏感性分析显示增大 \(\lambda_{reg}\) 比例可改善性能,因为两个任务初始损失量级差异大,需要通过权重调节实现任务平衡。
实验关键数据¶
主实验¶
表1:目的地预测和出行时间估计(三个城市)
| 方法 | Beijing ACC@1↑ | Beijing MRR↑ | Porto ACC@1↑ | Xi'an ACC@1↑ |
|---|---|---|---|---|
| Node2Vec | 0.1954 | 0.2884 | 0.2201 | 0.4088 |
| TrajRNE | 0.6728 | 0.7603 | 0.6728 | 0.8260 |
| JCLRNT | 0.4222 | 0.5528 | 0.5133 | 0.6752 |
| DST | 0.7288 | 0.8213 | 0.6766 | 0.8335 |
表2:速度推理任务
| 方法 | Beijing MAE↓ | Porto MAE↓ | Xi'an MAE↓ |
|---|---|---|---|
| JCLRNT | 2.8512 | 3.7475 | 4.5138 |
| TrajRNE | 3.0756 | 4.7854 | 5.1898 |
| DST | 2.4595 | 3.4259 | 4.4987 |
DST 在三个城市、三项下游任务上全面取得最优,目的地预测相比 TrajRNE 在北京提升 8.3%(ACC@1)。
消融实验¶
- w/o \(P_{hop}\)(去掉 mix-hop 矩阵):速度推理退化最严重,说明多跳运动关系对理解路段功能至关重要
- w/o \(hg_2\)(去掉同类型超边):速度推理退化显著,同类型路段的高阶关系是关键补充信息
- w/o tm(去掉时间分支):轨迹相关任务(目的地预测、出行时间)退化最严重,时间动态是不可或缺的补充
- w/o \(hg_1\)、w/o \(hg_3\):中等程度退化,三种超边互相补充
关键发现¶
- 空间语义超图和 mix-hop 矩阵在速度推理中贡献最大——该任务对路段功能理解要求最高
- 时间分支对轨迹相关任务提升显著——交通动态包含出行模式的关键信息
- 零样本跨城市迁移实验中 DST 表现竞争力强(北京训练→波尔图测试),ACC@1=0.6424 远超 JCLRNT 的 0.0167
- DST 对超参不敏感,较小的 traffic batch size 略优(因交通序列的稀疏性,大 batch 引入噪声)
亮点与洞察¶
- 双分支分治策略清晰且有效:空间/时间各自用最适合的架构(GNN vs Transformer),避免异构输入的耦合干扰
- 三种超边设计覆盖了路网高阶关系的多个维度(功能区域、类型一致、地理邻接),互相补充
- 零样本跨城市迁移能力说明学到的表示具有不错的泛化性,降低新城市部署成本
- 工作日/周末分类作为正则化任务的设计巧妙,引导模型学习有区分度的时间表示
局限性 / 可改进方向¶
- 双分支独立预训练再拼接融合较为简单,联合训练或注意力融合可能效果更好
- mix-hop 转移矩阵依赖轨迹数据质量,GPS 噪声和地图匹配误差可能影响矩阵质量
- 时间分支仅用 24 小时粒度的访问量,未考虑更细粒度(如 15 分钟间隔)或更长时间跨度
- 超图的三种超边类型是人工设计的,可探索数据驱动的超边构建方式
相关工作与启发¶
- JCLRNT 和 TrajRNE 是利用轨迹增强路网表示的先驱,DST 在其基础上加入超图和时间分支
- 超图对比学习思想可应用于其他空间网络(如电力网、水利网)的表示学习
- 双分支预训练+融合的范式与多模态预训练(如 CLIP 的视觉/文本)有异曲同工之处
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 技术深度 | 4 |
| 实验充分性 | 5 |
| 写作质量 | 4 |
| 实用价值 | 4 |
| 总评 | 4.2 |