DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning¶

会议: AAAI 2026
arXiv: 2506.06659
代码: 有
领域: 自动驾驶
关键词: 端到端规划, 轨迹选择, 粗到精, 数据增强, 自蒸馏

一句话总结¶

提出 DriveSuprim，通过粗到精的轨迹筛选范式、旋转数据增强和自蒸馏软标签框架，解决选择式端到端规划中难以区分相似轨迹、方向偏差和硬标签不稳定的问题，在 NAVSIM v1/v2 和 Bench2Drive 上达到 SOTA。

研究背景与动机¶

端到端自动驾驶规划方法主要分两类：

回归式方法：直接预测单一专家轨迹，无法显式评估轨迹安全性
选择式方法：生成并评分多条轨迹候选，选最优的。Oracle 实验显示选择式方法的性能上限甚至超过人类示范（Top-256 PDMS=98.7 vs 人类 94.8）

然而选择式方法存在三个关键瓶颈：

难以区分困难负样本：训练中绝大多数候选是明显不安全的"easy negatives"，模型获得的细粒度区分监督不足，难以在看似合理但有微妙差异的轨迹间做出最优选择
方向偏差：NAVSIM 中仅 18% 的 GT 轨迹涉及超过 30° 的转弯，直行主导的数据分布导致模型在转弯场景下表现差
硬标签不稳定：基于阈值的二值安全标签使模型对微小分数变化过度敏感，轻微差异即可翻转 safe/unsafe 判定

方法详解¶

整体框架¶

DriveSuprim 采用选择式规划范式，包含三个核心创新组件：

Coarse-to-Fine 轨迹选择：先粗筛再精排
旋转数据增强：合成转弯场景缓解方向偏差
自蒸馏框架：用教师生成软标签稳定训练

架构流程：图像编码器提取 BEV 特征 → 轨迹编码器编码候选词汇 → Trajectory Decoder（粗筛）→ Refinement Decoder（精排）→ 输出最优轨迹。

关键设计¶

1. 粗到精轨迹选择（Coarse-to-Fine）

粗筛阶段：与 Hydra-MDP 类似，轨迹特征与图像特征通过 Transformer Decoder 交叉注意力交互，多个预测头回归 L2 距离和规则度量分数，选出 Top-K 候选：

\[g_j = \text{TransDec}(\mathcal{E}_{img}, f_j), \quad s_j^{(m)} = \text{Sigmoid}(\text{head}^{(m)}(g_j))\]

精排阶段：对筛选出的候选（包含大量 hard negatives），用 Refinement Decoder 进一步做多层精细评分：

\[\{h_{j,l}\}_{l=1}^{n_{ref}} = \text{RefineDec}(\mathcal{E}_{img}, g_j)\]

每层输出都有损失监督，最终层的最高分候选作为预测结果。精排只处理少量候选，计算开销可控。

2. 旋转数据增强（Rotation-based Augmentation）

针对直行主导的数据偏差，设计端到端的旋转增强流水线：

随机采样旋转角 \(\theta \sim U[-\Theta, \Theta]\)
拼接原始 FOV 和两侧扩展视角图像为"伪全景图"
根据 \(\theta\) 通过滑动窗口裁剪输入图像，模拟自车旋转
GT 轨迹对应做 2D 旋转变换（角度 \(-\theta\)，绕初始位置旋转），保持世界坐标不变

该方法合成更多挑战性转弯场景，使模型无论车辆朝向如何都能精确选择轨迹。

3. 自蒸馏软标签框架（Self-Distillation）

用 EMA 更新的教师模型生成软标签替代硬二值标签：

\[\hat{y}_i^{(m)} = y_i^{(m)} + \text{clip}(s_{i,\text{teacher}}^{(m)} - y_i^{(m)}, -\delta_m, \delta_m)\]

教师仅接收原始数据生成分数作为软标签
学生接收含噪声的增强数据
裁剪阈值 \(\delta_m\) 控制教师输出与 GT 的偏离范围
推理时使用教师模型输出规划轨迹

损失函数 / 训练策略¶

总损失由三部分组成：

\[L = L_{ori} + L_{aug} + L_{soft}\]

\(L_{ori} = L_{coarse} + L_{refine}\)：原始数据上的粗筛和精排损失
\(L_{aug}\)：增强数据上的损失（与 \(L_{ori}\) 同构）
\(L_{soft}\)：基于教师软标签的蒸馏损失

其中粗筛损失包含模仿损失和 BCE 分类损失。

实验关键数据¶

主实验¶

表1：NAVSIM v1 评估

方法	Backbone	NC↑	DAC↑	EP↑	TTC↑	C↑	PDMS↑
Hydra-MDP	ResNet34	98.3	96.0	78.7	94.6	100	86.5
DiffusionDrive	ResNet34	98.2	96.2	82.2	94.7	100	88.1
DriveSuprim	ResNet34	97.8	97.3	86.7	93.6	100	89.9 (+1.8)
Hydra-MDP	ViT-L	98.4	97.7	85.0	94.5	100	89.9
DriveSuprim	ViT-L	98.6	98.6	91.3	95.5	100	93.5 (+3.6)

表2：Bench2Drive 评估

方法	DS↑	SR↑	Eff.↑	Comf.↑
DriveAdapter	64.22	33.08	70.22	16.01
AutoVLA	78.84	57.73	146.93	39.33
DriveSuprim	83.02	60.00	238.78	20.89

消融实验¶

去掉 Refinement Decoder → PDMS 下降约 1-2%，证实精排对 hard negatives 区分的重要性
去掉旋转增强 → 转弯场景性能显著下降，尤其 EP（Ego Progress）指标退化明显
去掉自蒸馏 → 训练不稳定，soft label 对缓解硬边界敏感问题贡献显著
增大 Top-K（精排候选数量）→ 性能先升后降，过多候选引入更多噪声

关键发现¶

Oracle 实验表明选择式方法的理论上限远超人类（Top-256 PDMS 98.7 vs 人类 94.8），关键是如何逼近该上限
NAVSIM v1 上 ViT-L backbone 的 PDMS 达到 93.5，距离 Oracle 上限 98.7 还有约 5% 的提升空间
旋转增强不仅改善转弯场景，还增强整体鲁棒性，因为模型需学会处理更多样的视觉输入
自蒸馏的 clipping 机制 \(\delta_m\) 很关键——防止教师错误过度传播

亮点与洞察¶

粗到精范式在计算机视觉中是经典思路，但应用到轨迹选择令人耳目一新，通过缩小搜索空间专注 hard negatives
旋转增强的设计巧妙：直接在图像层面模拟自车旋转，比在 3D 空间做变换更简单高效
Oracle 分析清晰展示了选择式方法的巨大潜力，为后续研究提供了明确方向
在不使用额外训练数据的前提下取得 SOTA（93.5 PDMS），证明方法论创新的价值

局限性 / 可改进方向¶

轨迹词汇表是预定义的固定集合，限制了可选轨迹的多样性和精细粒度
旋转增强仅模拟 yaw 旋转，未考虑 pitch/roll 等更复杂的姿态变化
自蒸馏的超参 \(\delta_m\) 需要对不同度量分别调优
缺少对极端场景（如紧急制动、异常交通参与者）的针对性设计

评分¶

维度	分数 (1-5)
创新性	4
技术深度	4
实验充分性	5
写作质量	4
实用价值	5
总评	4.4