MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating¶

会议: CVPR 2026
arXiv: 2603.09419
代码: 无（未公开）
领域: 自动驾驶 / 轨迹预测
关键词: [测试时训练, 元学习, 轨迹预测, 分布偏移, 在线适应]

一句话总结¶

提出MetaDAT框架，通过元学习预训练获得适合在线适应的模型初始化，并在测试时采用动态学习率优化和困难样本驱动更新来实现跨数据集分布偏移下的轨迹预测自适应，在nuScenes/Lyft/Waymo多种跨域配置下全面超越现有TTT方法。

自动驾驶中的轨迹预测器通常在预收集数据集上离线训练，但部署到新环境时面临严重的分布偏移问题——道路结构、交互模式、驾驶风格的差异会导致显著的性能下降。测试时训练（TTT）是一种有前景的解决方案：利用轨迹预测任务的"自标注"特性（当前时刻的观测就是之前预测的真值），在测试时在线更新模型。

然而现有方法存在两个核心缺陷：(1) 离线-在线目标不对齐——传统离线预训练只优化分布内预测精度，未考虑在线适应能力，导致预训练的表示在在线更新过程中快速退化；(2) 固定的在线更新策略——学习率和更新频率是预先固定的，无法适应未知测试数据的特性（如分布偏移程度、样本难度分布）。

如何让轨迹预测模型在面对未知分布偏移时，既能从预训练阶段就做好"准备在线学习"的准备，又能在测试时根据实际数据特征动态调整学习策略？简而言之，要同时解决"学什么样的初始化"和"如何适应性地更新"两个问题。

MetaDAT分为两个阶段：(1) 元预训练阶段：在源数据集上模拟TTT任务，通过MAML风格的双层优化获得适合在线适应的模型初始化θ；(2) 数据自适应测试时更新阶段*：在目标域上进行在线学习，采用动态学习率优化（DLO）和困难样本驱动更新（HSD）来自适应地调整更新策略。

预测网络采用ForecastMAE作为骨干（与之前的T4P保持一致以公平比较），包含embedding层、encoder、decoder和MAE重建分支，训练目标是回归损失+重建损失的联合MAE loss。

元预训练（Meta Pre-training, MP）: 将源数据集的各驾驶场景视为子域，按时间顺序组织成在线序列来模拟TTT任务。采用MAML的双层优化：内循环对每个模拟TTT任务执行K步在线更新得到θ'；外循环评估适应后的预测性能并优化初始参数θ。使用一阶近似降低计算开销，并以离线预训练参数θ_off作为元学习起点以加速收敛和提升泛化性。
动态学习率优化（Dynamic Learning Rate Optimization, DLO）: 利用在线偏导数∂L/∂α来动态调整每层的学习率。核心思想是：连续两步的梯度方向一致时应增大学习率（加速收敛），方向相反时应减小学习率（避免震荡）。为稳定训练，实际使用长度为τ_α的窗口平均梯度。每个网络层有独立的学习率，从相同的初始值开始自适应调整。
困难样本驱动更新（Hard-Sample-Driven Updates, HSD）: 自动驾驶数据存在长尾分布，少数困难场景（如密集交互、复杂路口）最容易受分布偏移影响，也最具信息量。通过比较预测误差e与运行均值m和标准差σ的关系（e > m + kσ），筛选困难样本并对其执行额外更新步。由于只选取少量样本，不影响整体效率。

预训练和测试时训练均使用联合MAE损失：L_mae = L_reg(X,Y) + L_recon(X,Y)，其中L_reg是回归损失，L_recon是masked autoencoder重建损失
元预训练使用AdamW优化器，meta batch size B=4，内循环步数K=4，元学习率β=5e-4（余弦衰减到1e-6），训练8个epoch
测试时训练使用AdamW，时间间隔τ=t_f（让过去真值包含完整预测时域），DLO的γ=1e-4，更新间隔τ_α=8，HSD的k=3
采用actor-specific tokens学习个体行为习惯

配置	指标	MetaDAT	T4P (之前SOTA)	提升
Lyft→nuS 短期	mADE6/mFDE6	0.332/0.683	0.408/0.847	18.6%/19.4%
nuS→Way 短期	mADE6/mFDE6	0.305/0.712	0.343/0.792	11.1%/10.1%
Way→nuS 短期	mADE6/mFDE6	0.266/0.548	0.284/0.585	6.3%/6.3%
短期均值	mADE6/mFDE6	0.301/0.648	0.345/0.741	12.7%/12.5%
nuS→Lyft 长期	mADE6/mFDE6	0.648/1.472	0.711/1.578	8.9%/6.7%
Lyft→nuS 长期	mADE6/mFDE6	1.177/2.551	1.260/2.742	6.6%/7.0%

三个模块独立有效且互补：MP单独使用mADE6从0.408降到0.355（Lyft→nuS短期），DLO降到0.376，HSD降到0.400，三者合一降到0.332
MP贡献最大（长期均值从0.560降到0.514），DLO次之（0.530），HSD最小但在三者组合中起到锦上添花效果
学习率鲁棒性：在次优α=0.01下，T4P的mADE6为0.518，MetaDAT仍为0.407；在α=0.0001下T4P为0.393，MetaDAT为0.341
少样本场景：仅用2000样本，MetaDAT（0.327/0.743）已接近T4P用10000样本的效果（0.343/0.792）
效率：在相同FPS下，MetaDAT比T4P有更好的预测精度

vs T4P (CVPR 2024)：T4P引入了MAE损失和actor-specific tokens用于TTT，但预训练仍是标准离线训练，且在线更新策略固定。MetaDAT在T4P基础上解决了两个根本问题（预训练目标对齐+自适应更新），短期预测均值提升12.7%
vs AML (ICRA 2023)：AML也用了元学习，但只适应decoder最后的贝叶斯线性回归层，限制了深层表示的适应能力。MetaDAT对整个模型参数做元预训练，灵活性更强，性能差距明显（AML短期均值mADE6为0.567 vs MetaDAT的0.301）
vs MEK (2021)：MEK使用扩展卡尔曼滤波作为在线优化器，缺乏对预训练阶段的优化，且在某些配置下不稳定（mFDE6=1.806）

元预训练+测试时自适应更新的框架思路可迁移到其他在线学习场景（如医学影像的域适应、点云理解的跨传感器适应）
DLO中利用连续梯度方向一致性来调整学习率的思想，可用于任何在线/持续学习场景
困难样本筛选通过运行统计量来自适应确定阈值，比固定比例更灵活
与idea 20260316_foundation_model_tta.md 中的TTA相关，但MetaDAT强调预训练阶段的对齐，这是TTA方法常忽略的方向