Progressive Pretext Task Learning for Human Trajectory Prediction¶

会议: ECCV 2024
arXiv: 2407.11588
代码: 有 (https://github.com/iSEE-Laboratory/PPT)
领域: 自动驾驶
关键词: 行人轨迹预测, 渐进式学习, 前置任务, Transformer, 知识蒸馏

一句话总结¶

提出渐进式前置任务学习框架 PPT，通过三阶段训练（逐步下一位置预测 → 目的地预测 → 完整轨迹预测）逐步增强模型对短期动态和长期依赖的捕获能力，配合高效的两步非自回归 Transformer 预测器，在多个行人轨迹预测基准上取得 SOTA。

研究背景与动机¶

行人轨迹预测需要预测从短期到长期的所有未来位置。然而，短期预测和长期预测依赖于截然不同的理解能力： - 短期预测：需要识别相邻时间步间的细粒度局部动态模式。 - 长期预测：需要推断全局运动趋势，捕获轨迹的长程依赖。

现有方法的不足： 1. 大多数方法（Social-GAN、MID、LED 等）用单一统一的训练范式同时处理所有时间范围的预测，往往在短期和长期性能之间做出次优折中。 2. 目的地驱动方法（MemoNet、PECNet 等）虽然先预测目的地再插值中间位置，但目的地预测器和轨迹预测器之间缺乏知识迁移，导致两者脱节。 3. 现有 Transformer 方法多采用自回归生成，推理效率低；非自回归方法如 MID 依赖扩散模型（慢）或 TUTR 忽略时间动态（性能受限）。

本文的核心思想：既然短期和长期预测需要不同的能力，为什么不分阶段逐步训练这些能力？

方法详解¶

整体框架¶

PPT 框架包含三个渐进式训练阶段和一个 Transformer 骨干模型：

Stage I - 逐步下一位置预测：学习短期动态
Stage II - 跳跃式目的地预测：学习长期依赖
Stage III - 完整轨迹预测：利用前两阶段的知识完成最终任务

每个阶段使用同一架构但不断增强能力，通过跨任务知识蒸馏防止遗忘。

关键设计¶

Task-I：逐步下一位置预测 - 从完整轨迹 \(\mathcal{S}^{T_1:T_e}\) 中随机采样子序列 \(\mathcal{S}^{T_1:T_{t-1}}\)，预测下一个位置 \(\mathcal{S}^{T_t}\)。 - 通过因果自注意力 mask 实现一次前向传播中并行处理多个随机子序列，提升训练效率。 - 任意长度的输入使模型全面理解轨迹中的局部运动模式。

Task-II：跳跃式目的地预测 - 输入观察轨迹 \(\mathcal{S}^{T_1:T_h}\)，预测整个轨迹的终点 \(\mathcal{S}^{T_e}\)。 - 由于没有 \(T_{e-1}\) 时刻的位置作为输入，引入可学习 prompt 嵌入附加在观察序列之后，赋予 \(T_{e-1}\) 的位置编码，实现"跳跃式"预测。 - 预测 K=20 个候选目的地，使用精度损失 + 多样性损失：

\[L_{Des} = \min_k L_2(\hat{\mathbf{E}}_k, \mathbf{E}) + \lambda_d \cdot \frac{1}{K(K-1)} \sum_i \sum_{j \neq i} e^{-L_2^2(\hat{\mathbf{E}}_i, \hat{\mathbf{E}}_j) / \sigma_s}\]

Task-III：完整轨迹预测 - 将 Task-II 训练好的模型 \(\theta_{II}\) 复制为目的地预测器和轨迹预测器。 - 目的地预测器生成 K 个候选目的地；取最接近 GT 的目的地输入轨迹预测器。 - 轨迹预测器的输入由三部分组成：观察轨迹 + 可学习 prompt 嵌入（未来中间位置） + 伪目的地。 - 非自回归地一次性输出所有未来位置。

Backbone：Transformer Encoder - 3 层 Transformer encoder，维度 128，8 头注意力。 - 输入 2D 位置经嵌入层映射后加上时间位置编码。 - 对每个位置输出下一帧预测，通过 LayerNorm + linear projector 得到 2D 坐标。

跨任务知识蒸馏： - \(L_{kd}^t\)：Task-I 模型的轨迹特征指导 Task-III 轨迹预测器 - \(L_{kd}^d\)：Task-II 模型的目的地特征指导 Task-III 目的地预测器 - 通过线性投影对齐特征维度后计算 L2 距离

损失函数 / 训练策略¶

Task-I：L2 距离的下一位置预测损失
Task-II：\(L_{Des} = L_{Precision} + \lambda_d L_{Diversity}\)，\(\lambda_d = 100\)
Task-III：\(L_{Traj} = L_{Recon} + \lambda_{kd}^t L_{kd}^t + \lambda_{kd}^d L_{kd}^d\)，\(\lambda_{kd}^t = 5\)，\(\lambda_{kd}^d = 0.5\)

三阶段学习率分别为 0.001, 0.0001, 0.0015。Task-II 训练前先 warm-up MLP 再联合训练全模型。

实验关键数据¶

主实验（表格）¶

SDD 数据集上的 minADE20/minFDE20（像素）：

方法	ADE↓	FDE↓
Social-GAN	27.23	41.44
PECNet	9.96	15.88
MemoNet	8.56	12.66
Social-VAE	8.10	11.72
MID	7.61	14.30
LED	8.48	11.66
TUTR	7.76	12.69
PPT (Ours)	7.03	10.65

ETH/UCY 数据集上的 minADE20/minFDE20（米）：

方法	ETH	HOTEL	UNIV	ZARA1	ZARA2	AVG
Social-GAN	0.87/1.62	0.67/1.37	0.76/1.52	0.35/0.68	0.42/0.84	0.61/1.21
MemoNet	0.40/0.61	0.11/0.17	0.24/0.43	0.18/0.32	0.14/0.24	0.21/0.35
SocialVAE	0.41/0.58	0.13/0.19	0.21/0.36	0.17/0.29	0.13/0.22	0.21/0.33
PPT	0.36/0.51	0.11/0.15	0.22/0.40	0.17/0.30	0.12/0.21	0.20/0.31

GCS 数据集（像素）：

方法	ADE↓	FDE↓
EigenTrajectory	7.42	12.49
PPT (Ours)	6.20	9.34

PPT 在 GCS 上压倒性超越 SOTA，ADE 降低 16.4%，FDE 降低 25.2%。

消融实验（表格）¶

前置任务的消融（SDD 数据集）：

Task-I	Task-II	Task-III	ADE↓	FDE↓
✗	✗	✓	10.40	18.64
✗	✓	✓	7.71	11.42
✓	✓	✓	7.03	10.65

其他消融发现： - Task-I 使 Task-II 的目的地预测 FDE 从 11.58 降到 10.70 - 跨任务知识蒸馏减小了预测方差，提升了训练稳定性 - 多样性损失权重 \(\lambda_d = 100\) 为最优，过小导致模式塌缩，过大牺牲精度

关键发现¶

渐进式训练显著优于直接训练：无前置任务的直接训练 ADE/FDE 为 10.40/18.64，加入两个前置任务后降到 7.03/10.65，提升幅度巨大（32%/43%）。
两个前置任务各有贡献且互补：Task-I 提升短期精度，Task-II 提升长期准确性和目的地多样性，两者缺一不可。
高效推理：两步推理（先目的地，再全部中间点并行生成）速度仅 5.28ms/sample，显著优于自回归方法（STAR 35.8ms、AgentFormer 99.3ms、MID 736.8ms），与 TUTR（4.06ms）相当但性能远优。
训练也高效：前阶段预训练加速后续阶段收敛，SDD 上总训练时间仅 4.7 小时（单 RTX 3090）。

亮点与洞察¶

"先简后难"的训练哲学：类似于课程学习，先让模型学会走（下一步预测），再学会看远方（目的地预测），最后完成全程（完整轨迹）。这种渐进式策略使模型避免同时学习短期和长期模式时的次优折中。
可学习 prompt 嵌入的巧妙设计：用 prompt 表示未知的未来位置，配合位置编码实现非自回归并行生成，既保持了 Transformer 的序列建模优势，又避免了逐步解码的效率瓶颈。
跨任务知识蒸馏防止灾难性遗忘：将前两阶段模型作为 teacher 持续监督 Task-III 模型，确保短期和长期能力不被遗忘。
可视化验证令人信服：有 Task-I 的模型近端轨迹更准，有 Task-II 的模型远端更准，两者兼备则全程最优。

局限与展望¶

仅建模行人自身轨迹，未显式建模行人间交互或场景约束（如障碍物、道路边缘），在密集人群场景可能不够充分。
三阶段串行训练虽然每阶段都较快，但训练流程的复杂度增加，需要精心设计每阶段的超参。
使用 Best-of-20 评估策略——这是标准做法但掩盖了生成分布的真实质量。
目的地预测的多样性损失基于高斯 RBF 核，可以探索更灵活的分布建模方式（如归一化流）。
当前 Transformer 为 3 层 encoder-only，可以尝试 encoder-decoder 架构或更深的模型。

评分¶

新颖性: ⭐⭐⭐⭐ — 渐进式前置任务训练在轨迹预测中是首创
技术质量: ⭐⭐⭐⭐ — 三阶段设计有理有据，知识蒸馏防遗忘
实验充分度: ⭐⭐⭐⭐ — 四个数据集，详细消融，可视化分析
实用性: ⭐⭐⭐⭐ — 高效推理(5.28ms)，适合实时应用
总体推荐: ⭐⭐⭐⭐