Towards Predicting Any Human Trajectory in Context¶
会议: NeurIPS 2025
arXiv: 2506.00871
代码: 有(Project Page)
领域: Autonomous Driving
关键词: 行人轨迹预测, 上下文学习, 跨域适应, 合成数据, 示例选择
一句话总结¶
提出 TrajICL,一种基于上下文学习(ICL)的行人轨迹预测框架,通过时空相似性示例选择和预测引导示例选择,在不微调的情况下实现跨场景自适应轨迹预测,性能甚至超越微调方法。
研究背景与动机¶
行人轨迹预测是自动驾驶、机器人导航和监控系统的关键任务。现有方法虽然在特定环境中表现优异,但面临两大核心挑战:
场景适应性差:大多模型在特定环境/领域中训练和评估,难以泛化到新场景(不同地图布局、相机位置、传感器类型等)
微调成本高:传统适应方法需要在设备上进行反向传播,对边缘设备来说计算和内存成本过高;且需要为不同场景维护多个模型
In-Context Learning (ICL) 提供了一种有吸引力的替代方案:仅通过前向传播,利用少量示例即可适应新任务,无需更新模型权重。但将 ICL 应用于轨迹预测面临三个挑战:
- 随机选择的示例几乎不提供 ICL 能力:若示例与查询在空间位置或运动模式上不匹配,模型无法有效利用上下文
- 仅基于历史轨迹的示例选择是次优的:短历史轨迹无法捕捉长期意图,且行人运动本质上是多模态的(相似的历史可能导致不同的未来)
- 训练数据场景多样性不足:现有真实数据集场景有限,制约 ICL 泛化能力
方法详解¶
整体框架¶
TrajICL 包含嵌入层、轨迹编码器、上下文感知轨迹预测器和多模态解码器。模型仅在大规模合成数据集(MOTSynth)上训练,推理时通过选择场景内的相关示例实现跨域适应。
关键设计¶
-
时空相似性示例选择(STES):定义综合相似度 \(S(X_1, \tilde{X}_1^i) = \sigma(S_p) + \sigma(S_v)\),其中 \(S_p = \frac{1}{1+d_p}\)(位置 MSE 相似度)和 \(S_v = \frac{1}{1+d_v}\)(速度 MSE 相似度),\(\sigma\) 为归一化函数。选择 Top-M 个最相似的示例。核心动机:轨迹预测中,空间上接近且运动模式相似的历史轨迹最具参考价值。
-
预测引导示例选择(PG-ES):两阶段选择策略。第一阶段用 STES 选择示例并预测未来轨迹 \(\hat{Y}_1\);第二阶段将历史+预测未来拼接后重新计算相似度 \(S([X_1, \hat{Y}_1^k], [\tilde{X}_1^i, \tilde{Y}_1^i])\),取所有 K 个预测中的最小相似度。动机:通过纳入预测的未来轨迹,考虑长期动态,选择更相关的示例。
-
相对上下文位置编码(RCPE)+ 相似性排序位置编码(SRPE):RCPE 用 MLP 编码示例主体相对于目标主体的相对位置 \((x_{rel}, y_{rel})\);SRPE 用正弦位置编码表示示例与目标的相似性排名。两者加到示例特征上,使预测器能感知"哪个示例更相关"和"示例来自哪个位置"。
-
合成数据训练:使用 MOTSynth(700+ 个 90 秒视频,多样室外环境)训练,424 场景训练 + 107 场景评估。解决真实数据场景多样性不足的问题。
训练策略¶
两阶段训练: - VTP 阶段:标准轨迹预测训练,100 epochs,AdamW + cosine annealing - ICL 阶段:使用 STES 选择示例进行训练,400 epochs - 损失函数:MSE + Winner-Take-All(仅优化最准确的预测)\(\mathcal{L} = \min_k \|\hat{Y}_1^{(k)} - Y_1\|^2\)
实验关键数据¶
主实验¶
| 方法 | 免训练 | MOTSynth | JRDB-Image | WildTrack | SDD | JTA |
|---|---|---|---|---|---|---|
| Social-Transmotion | ✓ | 17.6/23.0 | 2.88/3.32 | 24.7/36.3 | 10.2/18.9 | 1.18/1.97 |
| +Full FT | ✗ | 16.0/20.9 | 2.56/2.87 | 22.9/34.5 | 7.96/13.6 | 0.52/0.76 |
| +LoRA (r=64) | ✗ | 16.8/22.2 | 2.65/2.98 | 23.6/35.6 | 9.11/16.8 | 0.60/0.93 |
| +TrajICL | ✓ | 15.3/17.5 | 2.61/2.68 | 21.1/28.3 | 8.40/14.8 | 0.59/0.85 |
| Δ vs 基线 | -14.2%/-23.9% | -7.6%/-19.2% | -14.6%/-22.0% | -17.6%/-21.7% | -41.5%/-56.9% |
minADE/minFDE (K=20),TrajICL 在 4/6 个数据集上 minFDE 超越全微调。
消融实验¶
| 空间 | 时间 | 预测引导 | MOTSynth | WildTrack | JTA | SDD |
|---|---|---|---|---|---|---|
| 21.8 | 35.5 | 1.08 | 16.4 | |||
| ✓ | ✓ | 18.0 (-17.4%) | 28.9 (-18.6%) | 0.85 (-21.3%) | 15.1 (-7.9%) | |
| ✓ | ✓ | ✓ | 17.5 (-19.7%) | 28.3 (-20.3%) | 0.85 (-21.3%) | 14.8 (-9.8%) |
RCPE+SRPE 的消融:联合使用在跨域数据集上提升最显著(WildTrack minFDE 31.0→28.3,JRDB-World 0.23→0.21)。
关键发现¶
- 随机选择示例几乎不能带来 ICL 能力(MOTSynth 上增加示例数量性能不提升),而 STES 则随示例增加持续提升
- PG-ES 相比 STES 在四个数据集上 minFDE 进一步提升 6.6%-8.6%
- 在仅 10% 标注数据的极端条件下,TrajICL 仍优于最佳微调方法
- 空间和时间相似度的相对重要性取决于数据集:JTA/SDD 中时间更重要,MOTSynth 中空间更重要
- TrajICL 框架可适配不同 backbone(ForecastMAE 上也有 10-12% 提升)
亮点与洞察¶
- ICL 在轨迹预测中的首次成功应用:证明了适当的示例选择策略能使轨迹预测模型获得真正的 ICL 能力
- 合成数据训练、真实数据推理:解耦训练和部署环境,极具实际应用价值
- 免训练适应超越微调:在 4/6 数据集上 minFDE 超越全微调,挑战了"微调是最佳适应策略"的假设
- 定性分析显示 TrajICL 能感知 3D 结构(如电梯)、遵守地图约束(不穿越围栏)、捕捉行为趋势(走人行道)
局限与展望¶
- 增加上下文示例数量会线性增加推理计算成本
- 世界坐标数据集(JRDB-World、JTA)上的提升相对较小
- 仅使用轨迹数据作为输入,未利用地图/场景信息
- 合成-真实域差距仍然存在
相关工作与启发¶
TrajICL 为边缘设备上的轨迹预测提供了一种新范式:用合成数据训练一个通用模型,部署时仅需少量实际场景的观测数据作为示例,无需反向传播即可适应。这种方法也可以推广到其他时序预测任务(车辆轨迹、机器人轨迹等)。预测引导示例选择(PG-ES)的思想——用模型的初步预测来改进示例检索——也可以应用于其他 ICL 场景。
评分¶
- 新颖性: ⭐⭐⭐⭐ (ICL 在轨迹预测中的新应用方式,PG-ES 有创意)
- 实验充分度: ⭐⭐⭐⭐⭐ (6 个数据集、多种微调方法对比、丰富消融)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,动机阐述充分)
- 价值: ⭐⭐⭐⭐ (对边缘部署场景有实际意义)
相关论文¶
- [CVPR 2025] Certified Human Trajectory Prediction
- [CVPR 2025] Multi-modal Knowledge Distillation-based Human Trajectory Forecasting
- [NeurIPS 2025] OpenBox: Annotate Any Bounding Boxes in 3D
- [NeurIPS 2025] LabelAny3D: Label Any Object 3D in the Wild
- [ECCV 2024] Adaptive Human Trajectory Prediction via Latent Corridors