Towards Predicting Any Human Trajectory in Context¶

会议: NeurIPS 2025
arXiv: 2506.00871
代码: 有（Project Page）
领域: Autonomous Driving
关键词: 行人轨迹预测, 上下文学习, 跨域适应, 合成数据, 示例选择

一句话总结¶

提出 TrajICL，一种基于上下文学习（ICL）的行人轨迹预测框架，通过时空相似性示例选择和预测引导示例选择，在不微调的情况下实现跨场景自适应轨迹预测，性能甚至超越微调方法。

研究背景与动机¶

行人轨迹预测是自动驾驶、机器人导航和监控系统的关键任务。现有方法虽然在特定环境中表现优异，但面临两大核心挑战：

场景适应性差：大多模型在特定环境/领域中训练和评估，难以泛化到新场景（不同地图布局、相机位置、传感器类型等）

微调成本高：传统适应方法需要在设备上进行反向传播，对边缘设备来说计算和内存成本过高；且需要为不同场景维护多个模型

In-Context Learning (ICL) 提供了一种有吸引力的替代方案：仅通过前向传播，利用少量示例即可适应新任务，无需更新模型权重。但将 ICL 应用于轨迹预测面临三个挑战：

随机选择的示例几乎不提供 ICL 能力：若示例与查询在空间位置或运动模式上不匹配，模型无法有效利用上下文
仅基于历史轨迹的示例选择是次优的：短历史轨迹无法捕捉长期意图，且行人运动本质上是多模态的（相似的历史可能导致不同的未来）
训练数据场景多样性不足：现有真实数据集场景有限，制约 ICL 泛化能力

方法详解¶

整体框架¶

TrajICL 包含嵌入层、轨迹编码器、上下文感知轨迹预测器和多模态解码器。模型仅在大规模合成数据集（MOTSynth）上训练，推理时通过选择场景内的相关示例实现跨域适应。

关键设计¶

时空相似性示例选择（STES）：定义综合相似度 \(S(X_1, \tilde{X}_1^i) = \sigma(S_p) + \sigma(S_v)\)，其中 \(S_p = \frac{1}{1+d_p}\)（位置 MSE 相似度）和 \(S_v = \frac{1}{1+d_v}\)（速度 MSE 相似度），\(\sigma\) 为归一化函数。选择 Top-M 个最相似的示例。核心动机：轨迹预测中，空间上接近且运动模式相似的历史轨迹最具参考价值。
预测引导示例选择（PG-ES）：两阶段选择策略。第一阶段用 STES 选择示例并预测未来轨迹 \(\hat{Y}_1\)；第二阶段将历史+预测未来拼接后重新计算相似度 \(S([X_1, \hat{Y}_1^k], [\tilde{X}_1^i, \tilde{Y}_1^i])\)，取所有 K 个预测中的最小相似度。动机：通过纳入预测的未来轨迹，考虑长期动态，选择更相关的示例。
相对上下文位置编码（RCPE）+ 相似性排序位置编码（SRPE）：RCPE 用 MLP 编码示例主体相对于目标主体的相对位置 \((x_{rel}, y_{rel})\)；SRPE 用正弦位置编码表示示例与目标的相似性排名。两者加到示例特征上，使预测器能感知"哪个示例更相关"和"示例来自哪个位置"。
合成数据训练：使用 MOTSynth（700+ 个 90 秒视频，多样室外环境）训练，424 场景训练 + 107 场景评估。解决真实数据场景多样性不足的问题。

训练策略¶

两阶段训练： - VTP 阶段：标准轨迹预测训练，100 epochs，AdamW + cosine annealing - ICL 阶段：使用 STES 选择示例进行训练，400 epochs - 损失函数：MSE + Winner-Take-All（仅优化最准确的预测）\(\mathcal{L} = \min_k \|\hat{Y}_1^{(k)} - Y_1\|^2\)

实验关键数据¶

主实验¶

方法	免训练	MOTSynth	JRDB-Image	WildTrack	SDD	JTA
Social-Transmotion	✓	17.6/23.0	2.88/3.32	24.7/36.3	10.2/18.9	1.18/1.97
+Full FT	✗	16.0/20.9	2.56/2.87	22.9/34.5	7.96/13.6	0.52/0.76
+LoRA (r=64)	✗	16.8/22.2	2.65/2.98	23.6/35.6	9.11/16.8	0.60/0.93
+TrajICL	✓	15.3/17.5	2.61/2.68	21.1/28.3	8.40/14.8	0.59/0.85
Δ vs 基线		-14.2%/-23.9%	-7.6%/-19.2%	-14.6%/-22.0%	-17.6%/-21.7%	-41.5%/-56.9%

minADE/minFDE (K=20)，TrajICL 在 4/6 个数据集上 minFDE 超越全微调。

消融实验¶

空间	时间	预测引导	MOTSynth	WildTrack	JTA	SDD
			21.8	35.5	1.08	16.4
✓	✓		18.0 (-17.4%)	28.9 (-18.6%)	0.85 (-21.3%)	15.1 (-7.9%)
✓	✓	✓	17.5 (-19.7%)	28.3 (-20.3%)	0.85 (-21.3%)	14.8 (-9.8%)

RCPE+SRPE 的消融：联合使用在跨域数据集上提升最显著（WildTrack minFDE 31.0→28.3，JRDB-World 0.23→0.21）。

关键发现¶

随机选择示例几乎不能带来 ICL 能力（MOTSynth 上增加示例数量性能不提升），而 STES 则随示例增加持续提升
PG-ES 相比 STES 在四个数据集上 minFDE 进一步提升 6.6%-8.6%
在仅 10% 标注数据的极端条件下，TrajICL 仍优于最佳微调方法
空间和时间相似度的相对重要性取决于数据集：JTA/SDD 中时间更重要，MOTSynth 中空间更重要
TrajICL 框架可适配不同 backbone（ForecastMAE 上也有 10-12% 提升）

亮点与洞察¶

ICL 在轨迹预测中的首次成功应用：证明了适当的示例选择策略能使轨迹预测模型获得真正的 ICL 能力
合成数据训练、真实数据推理：解耦训练和部署环境，极具实际应用价值
免训练适应超越微调：在 4/6 数据集上 minFDE 超越全微调，挑战了"微调是最佳适应策略"的假设
定性分析显示 TrajICL 能感知 3D 结构（如电梯）、遵守地图约束（不穿越围栏）、捕捉行为趋势（走人行道）

局限与展望¶

增加上下文示例数量会线性增加推理计算成本
世界坐标数据集（JRDB-World、JTA）上的提升相对较小
仅使用轨迹数据作为输入，未利用地图/场景信息
合成-真实域差距仍然存在

评分¶

新颖性: ⭐⭐⭐⭐ （ICL 在轨迹预测中的新应用方式，PG-ES 有创意）
实验充分度: ⭐⭐⭐⭐⭐ （6 个数据集、多种微调方法对比、丰富消融）
写作质量: ⭐⭐⭐⭐ （结构清晰，动机阐述充分）
价值: ⭐⭐⭐⭐ （对边缘部署场景有实际意义）