跳转至

DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning

会议: AAAI 2026
arXiv: 2506.06659
代码:
领域: 自动驾驶
关键词: 端到端规划, 轨迹选择, 粗到精, 数据增强, 自蒸馏

一句话总结

提出 DriveSuprim,通过粗到精的轨迹筛选范式、旋转数据增强和自蒸馏软标签框架,解决选择式端到端规划中难以区分相似轨迹、方向偏差和硬标签不稳定的问题,在 NAVSIM v1/v2 和 Bench2Drive 上达到 SOTA。

研究背景与动机

端到端自动驾驶规划方法主要分两类:

  • 回归式方法:直接预测单一专家轨迹,无法显式评估轨迹安全性
  • 选择式方法:生成并评分多条轨迹候选,选最优的。Oracle 实验显示选择式方法的性能上限甚至超过人类示范(Top-256 PDMS=98.7 vs 人类 94.8)

然而选择式方法存在三个关键瓶颈:

  1. 难以区分困难负样本:训练中绝大多数候选是明显不安全的"easy negatives",模型获得的细粒度区分监督不足,难以在看似合理但有微妙差异的轨迹间做出最优选择
  2. 方向偏差:NAVSIM 中仅 18% 的 GT 轨迹涉及超过 30° 的转弯,直行主导的数据分布导致模型在转弯场景下表现差
  3. 硬标签不稳定:基于阈值的二值安全标签使模型对微小分数变化过度敏感,轻微差异即可翻转 safe/unsafe 判定

方法详解

整体框架

DriveSuprim 采用选择式规划范式,包含三个核心创新组件:

  1. Coarse-to-Fine 轨迹选择:先粗筛再精排
  2. 旋转数据增强:合成转弯场景缓解方向偏差
  3. 自蒸馏框架:用教师生成软标签稳定训练

架构流程:图像编码器提取 BEV 特征 → 轨迹编码器编码候选词汇 → Trajectory Decoder(粗筛)→ Refinement Decoder(精排)→ 输出最优轨迹。

关键设计

1. 粗到精轨迹选择(Coarse-to-Fine)

粗筛阶段:与 Hydra-MDP 类似,轨迹特征与图像特征通过 Transformer Decoder 交叉注意力交互,多个预测头回归 L2 距离和规则度量分数,选出 Top-K 候选:

\[g_j = \text{TransDec}(\mathcal{E}_{img}, f_j), \quad s_j^{(m)} = \text{Sigmoid}(\text{head}^{(m)}(g_j))\]

精排阶段:对筛选出的候选(包含大量 hard negatives),用 Refinement Decoder 进一步做多层精细评分:

\[\{h_{j,l}\}_{l=1}^{n_{ref}} = \text{RefineDec}(\mathcal{E}_{img}, g_j)\]

每层输出都有损失监督,最终层的最高分候选作为预测结果。精排只处理少量候选,计算开销可控。

2. 旋转数据增强(Rotation-based Augmentation)

针对直行主导的数据偏差,设计端到端的旋转增强流水线:

  • 随机采样旋转角 \(\theta \sim U[-\Theta, \Theta]\)
  • 拼接原始 FOV 和两侧扩展视角图像为"伪全景图"
  • 根据 \(\theta\) 通过滑动窗口裁剪输入图像,模拟自车旋转
  • GT 轨迹对应做 2D 旋转变换(角度 \(-\theta\),绕初始位置旋转),保持世界坐标不变

该方法合成更多挑战性转弯场景,使模型无论车辆朝向如何都能精确选择轨迹。

3. 自蒸馏软标签框架(Self-Distillation)

用 EMA 更新的教师模型生成软标签替代硬二值标签:

\[\hat{y}_i^{(m)} = y_i^{(m)} + \text{clip}(s_{i,\text{teacher}}^{(m)} - y_i^{(m)}, -\delta_m, \delta_m)\]
  • 教师仅接收原始数据生成分数作为软标签
  • 学生接收含噪声的增强数据
  • 裁剪阈值 \(\delta_m\) 控制教师输出与 GT 的偏离范围
  • 推理时使用教师模型输出规划轨迹

损失函数 / 训练策略

总损失由三部分组成:

\[L = L_{ori} + L_{aug} + L_{soft}\]
  • \(L_{ori} = L_{coarse} + L_{refine}\):原始数据上的粗筛和精排损失
  • \(L_{aug}\):增强数据上的损失(与 \(L_{ori}\) 同构)
  • \(L_{soft}\):基于教师软标签的蒸馏损失

其中粗筛损失包含模仿损失和 BCE 分类损失。

实验关键数据

主实验

表1:NAVSIM v1 评估

方法 Backbone NC↑ DAC↑ EP↑ TTC↑ C↑ PDMS↑
Hydra-MDP ResNet34 98.3 96.0 78.7 94.6 100 86.5
DiffusionDrive ResNet34 98.2 96.2 82.2 94.7 100 88.1
DriveSuprim ResNet34 97.8 97.3 86.7 93.6 100 89.9 (+1.8)
Hydra-MDP ViT-L 98.4 97.7 85.0 94.5 100 89.9
DriveSuprim ViT-L 98.6 98.6 91.3 95.5 100 93.5 (+3.6)

表2:Bench2Drive 评估

方法 DS↑ SR↑ Eff.↑ Comf.↑
DriveAdapter 64.22 33.08 70.22 16.01
AutoVLA 78.84 57.73 146.93 39.33
DriveSuprim 83.02 60.00 238.78 20.89

消融实验

  • 去掉 Refinement Decoder → PDMS 下降约 1-2%,证实精排对 hard negatives 区分的重要性
  • 去掉旋转增强 → 转弯场景性能显著下降,尤其 EP(Ego Progress)指标退化明显
  • 去掉自蒸馏 → 训练不稳定,soft label 对缓解硬边界敏感问题贡献显著
  • 增大 Top-K(精排候选数量)→ 性能先升后降,过多候选引入更多噪声

关键发现

  1. Oracle 实验表明选择式方法的理论上限远超人类(Top-256 PDMS 98.7 vs 人类 94.8),关键是如何逼近该上限
  2. NAVSIM v1 上 ViT-L backbone 的 PDMS 达到 93.5,距离 Oracle 上限 98.7 还有约 5% 的提升空间
  3. 旋转增强不仅改善转弯场景,还增强整体鲁棒性,因为模型需学会处理更多样的视觉输入
  4. 自蒸馏的 clipping 机制 \(\delta_m\) 很关键——防止教师错误过度传播

亮点与洞察

  • 粗到精范式在计算机视觉中是经典思路,但应用到轨迹选择令人耳目一新,通过缩小搜索空间专注 hard negatives
  • 旋转增强的设计巧妙:直接在图像层面模拟自车旋转,比在 3D 空间做变换更简单高效
  • Oracle 分析清晰展示了选择式方法的巨大潜力,为后续研究提供了明确方向
  • 在不使用额外训练数据的前提下取得 SOTA(93.5 PDMS),证明方法论创新的价值

局限性 / 可改进方向

  • 轨迹词汇表是预定义的固定集合,限制了可选轨迹的多样性和精细粒度
  • 旋转增强仅模拟 yaw 旋转,未考虑 pitch/roll 等更复杂的姿态变化
  • 自蒸馏的超参 \(\delta_m\) 需要对不同度量分别调优
  • 缺少对极端场景(如紧急制动、异常交通参与者)的针对性设计

相关工作与启发

  • Hydra-MDP 是选择式方法的代表,DriveSuprim 在其基础上加入粗到精机制和增强策略
  • 粗到精思想来自光流、检测等领域的迭代优化(Deformable DETR、RAFT)
  • 自蒸馏借鉴半监督学习中 EMA teacher 的成熟做法,与 Mean Teacher 一脉相承

评分

维度 分数 (1-5)
创新性 4
技术深度 4
实验充分性 5
写作质量 4
实用价值 5
总评 4.4