DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning¶
会议: AAAI 2026
arXiv: 2506.06659
代码: 有
领域: 自动驾驶
关键词: 端到端规划, 轨迹选择, 粗到精, 数据增强, 自蒸馏
一句话总结¶
提出 DriveSuprim,通过粗到精的轨迹筛选范式、旋转数据增强和自蒸馏软标签框架,解决选择式端到端规划中难以区分相似轨迹、方向偏差和硬标签不稳定的问题,在 NAVSIM v1/v2 和 Bench2Drive 上达到 SOTA。
研究背景与动机¶
端到端自动驾驶规划方法主要分两类:
- 回归式方法:直接预测单一专家轨迹,无法显式评估轨迹安全性
- 选择式方法:生成并评分多条轨迹候选,选最优的。Oracle 实验显示选择式方法的性能上限甚至超过人类示范(Top-256 PDMS=98.7 vs 人类 94.8)
然而选择式方法存在三个关键瓶颈:
- 难以区分困难负样本:训练中绝大多数候选是明显不安全的"easy negatives",模型获得的细粒度区分监督不足,难以在看似合理但有微妙差异的轨迹间做出最优选择
- 方向偏差:NAVSIM 中仅 18% 的 GT 轨迹涉及超过 30° 的转弯,直行主导的数据分布导致模型在转弯场景下表现差
- 硬标签不稳定:基于阈值的二值安全标签使模型对微小分数变化过度敏感,轻微差异即可翻转 safe/unsafe 判定
方法详解¶
整体框架¶
DriveSuprim 采用选择式规划范式,包含三个核心创新组件:
- Coarse-to-Fine 轨迹选择:先粗筛再精排
- 旋转数据增强:合成转弯场景缓解方向偏差
- 自蒸馏框架:用教师生成软标签稳定训练
架构流程:图像编码器提取 BEV 特征 → 轨迹编码器编码候选词汇 → Trajectory Decoder(粗筛)→ Refinement Decoder(精排)→ 输出最优轨迹。
关键设计¶
1. 粗到精轨迹选择(Coarse-to-Fine)
粗筛阶段:与 Hydra-MDP 类似,轨迹特征与图像特征通过 Transformer Decoder 交叉注意力交互,多个预测头回归 L2 距离和规则度量分数,选出 Top-K 候选:
精排阶段:对筛选出的候选(包含大量 hard negatives),用 Refinement Decoder 进一步做多层精细评分:
每层输出都有损失监督,最终层的最高分候选作为预测结果。精排只处理少量候选,计算开销可控。
2. 旋转数据增强(Rotation-based Augmentation)
针对直行主导的数据偏差,设计端到端的旋转增强流水线:
- 随机采样旋转角 \(\theta \sim U[-\Theta, \Theta]\)
- 拼接原始 FOV 和两侧扩展视角图像为"伪全景图"
- 根据 \(\theta\) 通过滑动窗口裁剪输入图像,模拟自车旋转
- GT 轨迹对应做 2D 旋转变换(角度 \(-\theta\),绕初始位置旋转),保持世界坐标不变
该方法合成更多挑战性转弯场景,使模型无论车辆朝向如何都能精确选择轨迹。
3. 自蒸馏软标签框架(Self-Distillation)
用 EMA 更新的教师模型生成软标签替代硬二值标签:
- 教师仅接收原始数据生成分数作为软标签
- 学生接收含噪声的增强数据
- 裁剪阈值 \(\delta_m\) 控制教师输出与 GT 的偏离范围
- 推理时使用教师模型输出规划轨迹
损失函数 / 训练策略¶
总损失由三部分组成:
- \(L_{ori} = L_{coarse} + L_{refine}\):原始数据上的粗筛和精排损失
- \(L_{aug}\):增强数据上的损失(与 \(L_{ori}\) 同构)
- \(L_{soft}\):基于教师软标签的蒸馏损失
其中粗筛损失包含模仿损失和 BCE 分类损失。
实验关键数据¶
主实验¶
表1:NAVSIM v1 评估
| 方法 | Backbone | NC↑ | DAC↑ | EP↑ | TTC↑ | C↑ | PDMS↑ |
|---|---|---|---|---|---|---|---|
| Hydra-MDP | ResNet34 | 98.3 | 96.0 | 78.7 | 94.6 | 100 | 86.5 |
| DiffusionDrive | ResNet34 | 98.2 | 96.2 | 82.2 | 94.7 | 100 | 88.1 |
| DriveSuprim | ResNet34 | 97.8 | 97.3 | 86.7 | 93.6 | 100 | 89.9 (+1.8) |
| Hydra-MDP | ViT-L | 98.4 | 97.7 | 85.0 | 94.5 | 100 | 89.9 |
| DriveSuprim | ViT-L | 98.6 | 98.6 | 91.3 | 95.5 | 100 | 93.5 (+3.6) |
表2:Bench2Drive 评估
| 方法 | DS↑ | SR↑ | Eff.↑ | Comf.↑ |
|---|---|---|---|---|
| DriveAdapter | 64.22 | 33.08 | 70.22 | 16.01 |
| AutoVLA | 78.84 | 57.73 | 146.93 | 39.33 |
| DriveSuprim | 83.02 | 60.00 | 238.78 | 20.89 |
消融实验¶
- 去掉 Refinement Decoder → PDMS 下降约 1-2%,证实精排对 hard negatives 区分的重要性
- 去掉旋转增强 → 转弯场景性能显著下降,尤其 EP(Ego Progress)指标退化明显
- 去掉自蒸馏 → 训练不稳定,soft label 对缓解硬边界敏感问题贡献显著
- 增大 Top-K(精排候选数量)→ 性能先升后降,过多候选引入更多噪声
关键发现¶
- Oracle 实验表明选择式方法的理论上限远超人类(Top-256 PDMS 98.7 vs 人类 94.8),关键是如何逼近该上限
- NAVSIM v1 上 ViT-L backbone 的 PDMS 达到 93.5,距离 Oracle 上限 98.7 还有约 5% 的提升空间
- 旋转增强不仅改善转弯场景,还增强整体鲁棒性,因为模型需学会处理更多样的视觉输入
- 自蒸馏的 clipping 机制 \(\delta_m\) 很关键——防止教师错误过度传播
亮点与洞察¶
- 粗到精范式在计算机视觉中是经典思路,但应用到轨迹选择令人耳目一新,通过缩小搜索空间专注 hard negatives
- 旋转增强的设计巧妙:直接在图像层面模拟自车旋转,比在 3D 空间做变换更简单高效
- Oracle 分析清晰展示了选择式方法的巨大潜力,为后续研究提供了明确方向
- 在不使用额外训练数据的前提下取得 SOTA(93.5 PDMS),证明方法论创新的价值
局限性 / 可改进方向¶
- 轨迹词汇表是预定义的固定集合,限制了可选轨迹的多样性和精细粒度
- 旋转增强仅模拟 yaw 旋转,未考虑 pitch/roll 等更复杂的姿态变化
- 自蒸馏的超参 \(\delta_m\) 需要对不同度量分别调优
- 缺少对极端场景(如紧急制动、异常交通参与者)的针对性设计
相关工作与启发¶
- Hydra-MDP 是选择式方法的代表,DriveSuprim 在其基础上加入粗到精机制和增强策略
- 粗到精思想来自光流、检测等领域的迭代优化(Deformable DETR、RAFT)
- 自蒸馏借鉴半监督学习中 EMA teacher 的成熟做法,与 Mean Teacher 一脉相承
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 技术深度 | 4 |
| 实验充分性 | 5 |
| 写作质量 | 4 |
| 实用价值 | 5 |
| 总评 | 4.4 |