Progressive Pretext Task Learning for Human Trajectory Prediction¶
会议: ECCV 2024
arXiv: 2407.11588
代码: 有 (https://github.com/iSEE-Laboratory/PPT)
领域: 自动驾驶
关键词: 行人轨迹预测, 渐进式学习, 前置任务, Transformer, 知识蒸馏
一句话总结¶
提出渐进式前置任务学习框架 PPT,通过三阶段训练(逐步下一位置预测 → 目的地预测 → 完整轨迹预测)逐步增强模型对短期动态和长期依赖的捕获能力,配合高效的两步非自回归 Transformer 预测器,在多个行人轨迹预测基准上取得 SOTA。
研究背景与动机¶
行人轨迹预测需要预测从短期到长期的所有未来位置。然而,短期预测和长期预测依赖于截然不同的理解能力: - 短期预测:需要识别相邻时间步间的细粒度局部动态模式。 - 长期预测:需要推断全局运动趋势,捕获轨迹的长程依赖。
现有方法的不足: 1. 大多数方法(Social-GAN、MID、LED 等)用单一统一的训练范式同时处理所有时间范围的预测,往往在短期和长期性能之间做出次优折中。 2. 目的地驱动方法(MemoNet、PECNet 等)虽然先预测目的地再插值中间位置,但目的地预测器和轨迹预测器之间缺乏知识迁移,导致两者脱节。 3. 现有 Transformer 方法多采用自回归生成,推理效率低;非自回归方法如 MID 依赖扩散模型(慢)或 TUTR 忽略时间动态(性能受限)。
本文的核心思想:既然短期和长期预测需要不同的能力,为什么不分阶段逐步训练这些能力?
方法详解¶
整体框架¶
PPT 框架包含三个渐进式训练阶段和一个 Transformer 骨干模型:
- Stage I - 逐步下一位置预测:学习短期动态
- Stage II - 跳跃式目的地预测:学习长期依赖
- Stage III - 完整轨迹预测:利用前两阶段的知识完成最终任务
每个阶段使用同一架构但不断增强能力,通过跨任务知识蒸馏防止遗忘。
关键设计¶
Task-I:逐步下一位置预测 - 从完整轨迹 \(\mathcal{S}^{T_1:T_e}\) 中随机采样子序列 \(\mathcal{S}^{T_1:T_{t-1}}\),预测下一个位置 \(\mathcal{S}^{T_t}\)。 - 通过因果自注意力 mask 实现一次前向传播中并行处理多个随机子序列,提升训练效率。 - 任意长度的输入使模型全面理解轨迹中的局部运动模式。
Task-II:跳跃式目的地预测 - 输入观察轨迹 \(\mathcal{S}^{T_1:T_h}\),预测整个轨迹的终点 \(\mathcal{S}^{T_e}\)。 - 由于没有 \(T_{e-1}\) 时刻的位置作为输入,引入可学习 prompt 嵌入附加在观察序列之后,赋予 \(T_{e-1}\) 的位置编码,实现"跳跃式"预测。 - 预测 K=20 个候选目的地,使用精度损失 + 多样性损失:
Task-III:完整轨迹预测 - 将 Task-II 训练好的模型 \(\theta_{II}\) 复制为目的地预测器和轨迹预测器。 - 目的地预测器生成 K 个候选目的地;取最接近 GT 的目的地输入轨迹预测器。 - 轨迹预测器的输入由三部分组成:观察轨迹 + 可学习 prompt 嵌入(未来中间位置) + 伪目的地。 - 非自回归地一次性输出所有未来位置。
Backbone:Transformer Encoder - 3 层 Transformer encoder,维度 128,8 头注意力。 - 输入 2D 位置经嵌入层映射后加上时间位置编码。 - 对每个位置输出下一帧预测,通过 LayerNorm + linear projector 得到 2D 坐标。
跨任务知识蒸馏: - \(L_{kd}^t\):Task-I 模型的轨迹特征指导 Task-III 轨迹预测器 - \(L_{kd}^d\):Task-II 模型的目的地特征指导 Task-III 目的地预测器 - 通过线性投影对齐特征维度后计算 L2 距离
损失函数 / 训练策略¶
- Task-I:L2 距离的下一位置预测损失
- Task-II:\(L_{Des} = L_{Precision} + \lambda_d L_{Diversity}\),\(\lambda_d = 100\)
- Task-III:\(L_{Traj} = L_{Recon} + \lambda_{kd}^t L_{kd}^t + \lambda_{kd}^d L_{kd}^d\),\(\lambda_{kd}^t = 5\),\(\lambda_{kd}^d = 0.5\)
三阶段学习率分别为 0.001, 0.0001, 0.0015。Task-II 训练前先 warm-up MLP 再联合训练全模型。
实验关键数据¶
主实验(表格)¶
SDD 数据集上的 minADE20/minFDE20(像素):
| 方法 | ADE↓ | FDE↓ |
|---|---|---|
| Social-GAN | 27.23 | 41.44 |
| PECNet | 9.96 | 15.88 |
| MemoNet | 8.56 | 12.66 |
| Social-VAE | 8.10 | 11.72 |
| MID | 7.61 | 14.30 |
| LED | 8.48 | 11.66 |
| TUTR | 7.76 | 12.69 |
| PPT (Ours) | 7.03 | 10.65 |
ETH/UCY 数据集上的 minADE20/minFDE20(米):
| 方法 | ETH | HOTEL | UNIV | ZARA1 | ZARA2 | AVG |
|---|---|---|---|---|---|---|
| Social-GAN | 0.87/1.62 | 0.67/1.37 | 0.76/1.52 | 0.35/0.68 | 0.42/0.84 | 0.61/1.21 |
| MemoNet | 0.40/0.61 | 0.11/0.17 | 0.24/0.43 | 0.18/0.32 | 0.14/0.24 | 0.21/0.35 |
| SocialVAE | 0.41/0.58 | 0.13/0.19 | 0.21/0.36 | 0.17/0.29 | 0.13/0.22 | 0.21/0.33 |
| PPT | 0.36/0.51 | 0.11/0.15 | 0.22/0.40 | 0.17/0.30 | 0.12/0.21 | 0.20/0.31 |
GCS 数据集(像素):
| 方法 | ADE↓ | FDE↓ |
|---|---|---|
| EigenTrajectory | 7.42 | 12.49 |
| PPT (Ours) | 6.20 | 9.34 |
PPT 在 GCS 上压倒性超越 SOTA,ADE 降低 16.4%,FDE 降低 25.2%。
消融实验(表格)¶
前置任务的消融(SDD 数据集):
| Task-I | Task-II | Task-III | ADE↓ | FDE↓ |
|---|---|---|---|---|
| ✗ | ✗ | ✓ | 10.40 | 18.64 |
| ✗ | ✓ | ✓ | 7.71 | 11.42 |
| ✓ | ✓ | ✓ | 7.03 | 10.65 |
其他消融发现: - Task-I 使 Task-II 的目的地预测 FDE 从 11.58 降到 10.70 - 跨任务知识蒸馏减小了预测方差,提升了训练稳定性 - 多样性损失权重 \(\lambda_d = 100\) 为最优,过小导致模式塌缩,过大牺牲精度
关键发现¶
- 渐进式训练显著优于直接训练:无前置任务的直接训练 ADE/FDE 为 10.40/18.64,加入两个前置任务后降到 7.03/10.65,提升幅度巨大(32%/43%)。
- 两个前置任务各有贡献且互补:Task-I 提升短期精度,Task-II 提升长期准确性和目的地多样性,两者缺一不可。
- 高效推理:两步推理(先目的地,再全部中间点并行生成)速度仅 5.28ms/sample,显著优于自回归方法(STAR 35.8ms、AgentFormer 99.3ms、MID 736.8ms),与 TUTR(4.06ms)相当但性能远优。
- 训练也高效:前阶段预训练加速后续阶段收敛,SDD 上总训练时间仅 4.7 小时(单 RTX 3090)。
亮点与洞察¶
- "先简后难"的训练哲学:类似于课程学习,先让模型学会走(下一步预测),再学会看远方(目的地预测),最后完成全程(完整轨迹)。这种渐进式策略使模型避免同时学习短期和长期模式时的次优折中。
- 可学习 prompt 嵌入的巧妙设计:用 prompt 表示未知的未来位置,配合位置编码实现非自回归并行生成,既保持了 Transformer 的序列建模优势,又避免了逐步解码的效率瓶颈。
- 跨任务知识蒸馏防止灾难性遗忘:将前两阶段模型作为 teacher 持续监督 Task-III 模型,确保短期和长期能力不被遗忘。
- 可视化验证令人信服:有 Task-I 的模型近端轨迹更准,有 Task-II 的模型远端更准,两者兼备则全程最优。
局限与展望¶
- 仅建模行人自身轨迹,未显式建模行人间交互或场景约束(如障碍物、道路边缘),在密集人群场景可能不够充分。
- 三阶段串行训练虽然每阶段都较快,但训练流程的复杂度增加,需要精心设计每阶段的超参。
- 使用 Best-of-20 评估策略——这是标准做法但掩盖了生成分布的真实质量。
- 目的地预测的多样性损失基于高斯 RBF 核,可以探索更灵活的分布建模方式(如归一化流)。
- 当前 Transformer 为 3 层 encoder-only,可以尝试 encoder-decoder 架构或更深的模型。
相关工作与启发¶
- 与课程学习/渐进式训练的联系:类似于 ProGAN 渐进式增大分辨率训练 GAN、PGBIG 渐进式细化运动预测,PPT 首次将渐进式前置任务引入轨迹预测领域。
- 与 TUTR 的对比:TUTR 同为非自回归 Transformer,但未使用 prompt 嵌入也未做渐进式预训练,性能明显不如 PPT。
- 目的地驱动策略的优势:将长期依赖显式分解为目的地预测 + 中间点生成,比端到端预测所有位置更有效,且两阶段共享模型架构使知识迁移自然发生。
- 渐进式前置任务的思路可以推广到车辆轨迹预测、机器人路径规划等相关任务。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 渐进式前置任务训练在轨迹预测中是首创
- 技术质量: ⭐⭐⭐⭐ — 三阶段设计有理有据,知识蒸馏防遗忘
- 实验充分度: ⭐⭐⭐⭐ — 四个数据集,详细消融,可视化分析
- 实用性: ⭐⭐⭐⭐ — 高效推理(5.28ms),适合实时应用
- 总体推荐: ⭐⭐⭐⭐
相关论文¶
- [ECCV 2024] Adaptive Human Trajectory Prediction via Latent Corridors
- [CVPR 2026] Recover to Predict: Progressive Retrospective Learning for Variable-Length Trajectory Prediction
- [CVPR 2025] Certified Human Trajectory Prediction
- [AAAI 2026] Task Prototype-Based Knowledge Retrieval for Multi-Task Learning from Partially Annotated Data
- [ECCV 2024] UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction