Embracing Large Language Models in Traffic Flow Forecasting¶

会议: ACL 2025
arXiv: 2412.12201
代码: https://github.com/YushengZhao/LEAF (有)
领域: 时间序列 / 交通预测
关键词: 交通流预测, LLM判别能力, 图神经网络, 超图, Ranking Loss

一句话总结¶

提出 LEAF 框架，用图分支（pair-wise关系）和超图分支（non-pair-wise关系）的双分支预测器生成候选预测，再用冻结的 LLM 作为选择器（判别而非生成）挑选最优预测，通过 ranking loss 反馈优化预测器，在 PEMS 数据集上取得 SOTA。

研究背景与动机¶

领域现状：交通流预测是智能交通系统的核心问题，主流方法使用 GNN/RNN/Transformer 捕获时空关系。最近开始有工作尝试将 LLM 引入交通预测。
现有痛点：(1) 现有方法假设训练/测试分布一致，但交通条件会因特殊事件、天气、时代变迁而发生分布偏移，导致性能下降；(2) 图只能捕获 pair-wise 关系，超图只能捕获 non-pair-wise 关系，单一结构不够。
核心矛盾：用 LLM 做交通预测的直觉方法是让 LLM 直接"生成"预测值，但交通数据涉及复杂的时空关系，对语言模型的生成能力来说太困难——LLM-MPE 在多个数据集上甚至不如简单的 GNN 方法。
本文要解决什么：如何利用 LLM 的泛化和推理能力来增强交通流预测，同时避免让 LLM 直接处理复杂的时空关系？
切入角度：不用 LLM 的"生成能力"，而用其"判别能力"——让 LLM 从多个候选预测中选择最合理的一个。
核心 idea：用传统时空模型生成候选，用 LLM 做选择器，用选择结果通过 ranking loss 反馈训练预测器。

方法详解¶

整体框架¶

LEAF 由两部分组成：(1) 双分支预测器——graph branch 捕获 pair-wise 时空关系，hypergraph branch 捕获 non-pair-wise 关系；(2) LLM-based selector——冻结的 LLaMA 3 70B 从候选集中选择最优预测。流程：预训练双分支 → 测试时生成预测 → 构建候选集（加变换） → LLM 选择 → ranking loss 微调预测器 → 迭代。

关键设计¶

时空图构建与 Graph Branch:
做什么：将 \(T \times N\) 的时空数据展开为时空图，用 GCN 捕获 pair-wise 时空关系
核心思路：构建时空图 \(\mathcal{G}^{ST}\)，节点为 \(TN\) 个时空节点，边包括空间边（同一时刻相邻传感器）和时间边（同一传感器相邻时刻）。用标准 GCN 卷积 \(X^{(l)} = \sigma(\hat{A}^{ST} X^{(l-1)} W_G^{(l)})\) 传播信息，7 层
设计动机：图分支擅长建模局部传播效应（如一个路口堵车影响邻近路口）
Hypergraph Branch:
做什么：学习超图关联矩阵，捕获 non-pair-wise 群组关系
核心思路：用可学习的关联矩阵 \(I_H = \text{softmax}(X_H^{(l-1)} W_H)\)，通过 \(X_H^{(l)} = I_H(I_H^\top X_H^{(l-1)} + \sigma(W_E I_H^\top X_H^{(l-1)}))\) 做超图卷积。第一项建模超边内节点交互，第二项建模超边间交互
设计动机：住宅区→商业区的早高峰通勤是典型的 non-pair-wise 关系——一组节点同步变化，不能用 pair-wise 图边表达
候选集构建与 LLM 选择器:
做什么：对双分支预测结果施加多种变换扩展候选集，用 LLM 从中选择
核心思路：变换包括平滑、上升趋势（1-12%线性增）、下降趋势、高估（+5%）、低估（-5%），加上原始预测共 12 个候选。构建包含任务描述、时空信息、历史数据、候选集的 prompt，让 LLaMA 3 70B 选择最优项
设计动机：(1) 更多候选给 LLM 更大空间应对分布偏移（如周一早高峰 LLM 可选上升趋势）；(2) LLM 做选择（判别）远比直接生成数值简单，能利用其常识推理能力
Ranking Loss 反馈:
做什么：用 LLM 的选择结果通过 ranking loss 反向训练预测器
核心思路：\(\mathcal{L}^G = [\Delta(y_i^G, \hat{y}_i) - \inf_{y_i' \in \mathcal{C}_i \setminus \{\hat{y}_i\}} \Delta(y_i^G, y_i') + \epsilon]_+\)，要求预测器输出更接近被选中的候选而非次优候选
设计动机：因为 LLM 选择的不一定是 ground truth，直接用 MSE/MAE 会引入噪声。Ranking loss 只要求相对排序正确，更鲁棒

损失函数 / 训练策略¶

预训练阶段：双分支各自用 MAE loss 训练
测试时适应：Ranking loss（Huber distance，margin \(\epsilon=0\)），每轮更新 \(M=5\) 步，prediction-selection 迭代 \(K=2\) 轮
隐藏维度 \(d=64\)，7 层，batch 训练

实验关键数据¶

主实验¶

方法	PEMS03 MAE	PEMS04 MAE	PEMS08 MAE	PEMS08 RMSE	PEMS08 MAPE
DCRNN (GNN+RNN)	29.99	34.36	31.41	43.91	15.44%
STSGNN (GNN)	28.21	33.43	29.58	41.95	12.90%
DyHSL (超图)	27.10	33.36	27.34	39.05	11.56%
STAEformer (Transformer)	27.87	33.77	27.43	38.16	11.36%
LLM-MPE (LLM生成)	33.82	35.63	26.42	40.02	10.61%
LEAF (ours)	25.46	31.49	24.68	36.07	10.56%

消融实验（PEMS08）¶

配置	MAE	RMSE	MAPE
Graph branch only	29.12	41.36	13.54%
Hypergraph branch only	27.94	39.11	11.82%
w/o hypergraph	26.29	38.18	12.83%
w/o graph	25.80	37.23	11.00%
w/o transformation	25.47	36.47	11.01%
w/o ranking loss	25.41	37.00	11.34%
LEAF	24.68	36.07	10.56%

关键发现¶

LLM 做判别远优于做生成：LLM-MPE（生成）在大网络 PEMS03 上 MAE 33.82，不如简单 GNN；LEAF（判别）MAE 25.46，大幅领先
双分支互补：去掉任一分支均导致性能下降，pair-wise 和 non-pair-wise 关系都重要
LLM 选择器的作用显著：单独 graph branch MAE 29.12 → 加 LLM＝26.29，单独 hypergraph 27.94 → 加 LLM＝25.80
Ranking loss 比直接拟合好：去掉 ranking loss 后 RMSE 从 36.07 上升到 37.00
长期预测优势更大：LEAF 在 12-step 预测中前几步与分支差异不大，但后续步骤误差显著降低

亮点与洞察¶

"用 LLM 做选择而非生成"：这是最核心的设计洞察。LLM 擅长理解语义和常识推理（如"下午 7 点高峰结束"），但不擅长精确数值预测。将其定位为判别器而非生成器是巧妙的能力匹配
Ranking loss 容忍选择噪声：LLM 选择不完美，ranking loss 只要求相对排序正确，优雅地处理了噪声监督信号
变换增强候选集：简单的变换（趋势/平滑/偏移）就能给 LLM 足够的"行动空间"来适应分布偏移

局限性 / 可改进方向¶

仅在 PEMS 交通数据集上验证，缺少其他时空预测任务（如气象、能源）
LLM 未经微调，LoRA 等参数高效微调可能进一步提升选择器质量
迭代轮次 K>2 时性能下降，因为没有跨轮上下文传递，会重复考虑相同因素
使用 LLaMA 3 70B 推理成本较高，实际部署需考虑效率
训练数据仅用 10%，在完整数据下的表现未知

评分¶

新颖性: ⭐⭐⭐⭐ "LLM 做判别者"的角色定位很有创意，但双分支设计本身是已有工作的组合
实验充分度: ⭐⭐⭐ 仅 3 个 PEMS 数据集，10% 训练数据设置较特殊
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，可视化分析有说服力
价值: ⭐⭐⭐⭐ 为时空预测中利用 LLM 提供了实用范式