跳转至

Progressive Pretext Task Learning for Human Trajectory Prediction

会议: ECCV 2024
arXiv: 2407.11588
代码: 有 (https://github.com/iSEE-Laboratory/PPT)
领域: 自动驾驶
关键词: 行人轨迹预测, 渐进式学习, 前置任务, Transformer, 知识蒸馏

一句话总结

提出渐进式前置任务学习框架 PPT,通过三阶段训练(逐步下一位置预测 → 目的地预测 → 完整轨迹预测)逐步增强模型对短期动态和长期依赖的捕获能力,配合高效的两步非自回归 Transformer 预测器,在多个行人轨迹预测基准上取得 SOTA。

研究背景与动机

行人轨迹预测需要预测从短期到长期的所有未来位置。然而,短期预测和长期预测依赖于截然不同的理解能力: - 短期预测:需要识别相邻时间步间的细粒度局部动态模式。 - 长期预测:需要推断全局运动趋势,捕获轨迹的长程依赖。

现有方法的不足: 1. 大多数方法(Social-GAN、MID、LED 等)用单一统一的训练范式同时处理所有时间范围的预测,往往在短期和长期性能之间做出次优折中。 2. 目的地驱动方法(MemoNet、PECNet 等)虽然先预测目的地再插值中间位置,但目的地预测器和轨迹预测器之间缺乏知识迁移,导致两者脱节。 3. 现有 Transformer 方法多采用自回归生成,推理效率低;非自回归方法如 MID 依赖扩散模型(慢)或 TUTR 忽略时间动态(性能受限)。

本文的核心思想:既然短期和长期预测需要不同的能力,为什么不分阶段逐步训练这些能力?

方法详解

整体框架

PPT 框架包含三个渐进式训练阶段和一个 Transformer 骨干模型:

  1. Stage I - 逐步下一位置预测:学习短期动态
  2. Stage II - 跳跃式目的地预测:学习长期依赖
  3. Stage III - 完整轨迹预测:利用前两阶段的知识完成最终任务

每个阶段使用同一架构但不断增强能力,通过跨任务知识蒸馏防止遗忘。

关键设计

Task-I:逐步下一位置预测 - 从完整轨迹 \(\mathcal{S}^{T_1:T_e}\) 中随机采样子序列 \(\mathcal{S}^{T_1:T_{t-1}}\),预测下一个位置 \(\mathcal{S}^{T_t}\)。 - 通过因果自注意力 mask 实现一次前向传播中并行处理多个随机子序列,提升训练效率。 - 任意长度的输入使模型全面理解轨迹中的局部运动模式。

Task-II:跳跃式目的地预测 - 输入观察轨迹 \(\mathcal{S}^{T_1:T_h}\),预测整个轨迹的终点 \(\mathcal{S}^{T_e}\)。 - 由于没有 \(T_{e-1}\) 时刻的位置作为输入,引入可学习 prompt 嵌入附加在观察序列之后,赋予 \(T_{e-1}\) 的位置编码,实现"跳跃式"预测。 - 预测 K=20 个候选目的地,使用精度损失 + 多样性损失:

\[L_{Des} = \min_k L_2(\hat{\mathbf{E}}_k, \mathbf{E}) + \lambda_d \cdot \frac{1}{K(K-1)} \sum_i \sum_{j \neq i} e^{-L_2^2(\hat{\mathbf{E}}_i, \hat{\mathbf{E}}_j) / \sigma_s}\]

Task-III:完整轨迹预测 - 将 Task-II 训练好的模型 \(\theta_{II}\) 复制为目的地预测器和轨迹预测器。 - 目的地预测器生成 K 个候选目的地;取最接近 GT 的目的地输入轨迹预测器。 - 轨迹预测器的输入由三部分组成:观察轨迹 + 可学习 prompt 嵌入(未来中间位置) + 伪目的地。 - 非自回归地一次性输出所有未来位置。

Backbone:Transformer Encoder - 3 层 Transformer encoder,维度 128,8 头注意力。 - 输入 2D 位置经嵌入层映射后加上时间位置编码。 - 对每个位置输出下一帧预测,通过 LayerNorm + linear projector 得到 2D 坐标。

跨任务知识蒸馏: - \(L_{kd}^t\):Task-I 模型的轨迹特征指导 Task-III 轨迹预测器 - \(L_{kd}^d\):Task-II 模型的目的地特征指导 Task-III 目的地预测器 - 通过线性投影对齐特征维度后计算 L2 距离

损失函数 / 训练策略

  • Task-I:L2 距离的下一位置预测损失
  • Task-II\(L_{Des} = L_{Precision} + \lambda_d L_{Diversity}\)\(\lambda_d = 100\)
  • Task-III\(L_{Traj} = L_{Recon} + \lambda_{kd}^t L_{kd}^t + \lambda_{kd}^d L_{kd}^d\)\(\lambda_{kd}^t = 5\)\(\lambda_{kd}^d = 0.5\)

三阶段学习率分别为 0.001, 0.0001, 0.0015。Task-II 训练前先 warm-up MLP 再联合训练全模型。

实验关键数据

主实验(表格)

SDD 数据集上的 minADE20/minFDE20(像素):

方法 ADE↓ FDE↓
Social-GAN 27.23 41.44
PECNet 9.96 15.88
MemoNet 8.56 12.66
Social-VAE 8.10 11.72
MID 7.61 14.30
LED 8.48 11.66
TUTR 7.76 12.69
PPT (Ours) 7.03 10.65

ETH/UCY 数据集上的 minADE20/minFDE20(米):

方法 ETH HOTEL UNIV ZARA1 ZARA2 AVG
Social-GAN 0.87/1.62 0.67/1.37 0.76/1.52 0.35/0.68 0.42/0.84 0.61/1.21
MemoNet 0.40/0.61 0.11/0.17 0.24/0.43 0.18/0.32 0.14/0.24 0.21/0.35
SocialVAE 0.41/0.58 0.13/0.19 0.21/0.36 0.17/0.29 0.13/0.22 0.21/0.33
PPT 0.36/0.51 0.11/0.15 0.22/0.40 0.17/0.30 0.12/0.21 0.20/0.31

GCS 数据集(像素):

方法 ADE↓ FDE↓
EigenTrajectory 7.42 12.49
PPT (Ours) 6.20 9.34

PPT 在 GCS 上压倒性超越 SOTA,ADE 降低 16.4%,FDE 降低 25.2%。

消融实验(表格)

前置任务的消融(SDD 数据集):

Task-I Task-II Task-III ADE↓ FDE↓
10.40 18.64
7.71 11.42
7.03 10.65

其他消融发现: - Task-I 使 Task-II 的目的地预测 FDE 从 11.58 降到 10.70 - 跨任务知识蒸馏减小了预测方差,提升了训练稳定性 - 多样性损失权重 \(\lambda_d = 100\) 为最优,过小导致模式塌缩,过大牺牲精度

关键发现

  1. 渐进式训练显著优于直接训练:无前置任务的直接训练 ADE/FDE 为 10.40/18.64,加入两个前置任务后降到 7.03/10.65,提升幅度巨大(32%/43%)。
  2. 两个前置任务各有贡献且互补:Task-I 提升短期精度,Task-II 提升长期准确性和目的地多样性,两者缺一不可。
  3. 高效推理:两步推理(先目的地,再全部中间点并行生成)速度仅 5.28ms/sample,显著优于自回归方法(STAR 35.8ms、AgentFormer 99.3ms、MID 736.8ms),与 TUTR(4.06ms)相当但性能远优。
  4. 训练也高效:前阶段预训练加速后续阶段收敛,SDD 上总训练时间仅 4.7 小时(单 RTX 3090)。

亮点与洞察

  • "先简后难"的训练哲学:类似于课程学习,先让模型学会走(下一步预测),再学会看远方(目的地预测),最后完成全程(完整轨迹)。这种渐进式策略使模型避免同时学习短期和长期模式时的次优折中。
  • 可学习 prompt 嵌入的巧妙设计:用 prompt 表示未知的未来位置,配合位置编码实现非自回归并行生成,既保持了 Transformer 的序列建模优势,又避免了逐步解码的效率瓶颈。
  • 跨任务知识蒸馏防止灾难性遗忘:将前两阶段模型作为 teacher 持续监督 Task-III 模型,确保短期和长期能力不被遗忘。
  • 可视化验证令人信服:有 Task-I 的模型近端轨迹更准,有 Task-II 的模型远端更准,两者兼备则全程最优。

局限与展望

  • 仅建模行人自身轨迹,未显式建模行人间交互或场景约束(如障碍物、道路边缘),在密集人群场景可能不够充分。
  • 三阶段串行训练虽然每阶段都较快,但训练流程的复杂度增加,需要精心设计每阶段的超参。
  • 使用 Best-of-20 评估策略——这是标准做法但掩盖了生成分布的真实质量。
  • 目的地预测的多样性损失基于高斯 RBF 核,可以探索更灵活的分布建模方式(如归一化流)。
  • 当前 Transformer 为 3 层 encoder-only,可以尝试 encoder-decoder 架构或更深的模型。

相关工作与启发

  • 与课程学习/渐进式训练的联系:类似于 ProGAN 渐进式增大分辨率训练 GAN、PGBIG 渐进式细化运动预测,PPT 首次将渐进式前置任务引入轨迹预测领域。
  • 与 TUTR 的对比:TUTR 同为非自回归 Transformer,但未使用 prompt 嵌入也未做渐进式预训练,性能明显不如 PPT。
  • 目的地驱动策略的优势:将长期依赖显式分解为目的地预测 + 中间点生成,比端到端预测所有位置更有效,且两阶段共享模型架构使知识迁移自然发生。
  • 渐进式前置任务的思路可以推广到车辆轨迹预测、机器人路径规划等相关任务。

评分

  • 新颖性: ⭐⭐⭐⭐ — 渐进式前置任务训练在轨迹预测中是首创
  • 技术质量: ⭐⭐⭐⭐ — 三阶段设计有理有据,知识蒸馏防遗忘
  • 实验充分度: ⭐⭐⭐⭐ — 四个数据集,详细消融,可视化分析
  • 实用性: ⭐⭐⭐⭐ — 高效推理(5.28ms),适合实时应用
  • 总体推荐: ⭐⭐⭐⭐

相关论文