FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning¶
会议: AAAI 2026
arXiv: 2507.23318
代码: 未公开
领域: 多模态 VLM / 自动驾驶
关键词: VLA 模型加速, 视觉 token 剪枝, 前景重建, 自动驾驶, plug-and-play
一句话总结¶
提出 FastDriveVLA,通过 MAE 风格的前景像素重建训练轻量级 plug-and-play 的 ReconPruner 模块(仅 0.07B),利用对抗前景-背景重建策略优先保留驾驶决策所需的前景 token,在 nuScenes 开环规划基准上各剪枝率均达 SOTA,一次训练可迁移至同一视觉编码器的不同 VLA 模型。
研究背景与动机¶
Vision-Language-Action(VLA)模型在端到端自动驾驶中展现了强大的场景理解和动作推理能力,但视觉编码器产生的大量 token(如 3249 个)带来巨大计算开销和推理延迟,严重制约实车部署。现有 VLM token 剪枝方法存在两个根本问题:
- 基于注意力的方法(FastV, SparseVLM):依赖文本-视觉注意力分数评估 token 重要性,但驾驶场景中指令固定且简洁,无法提供有效的 token 选择引导
- 基于相似度的方法(VisPruner, DivPrune):通过 token 多样性选择子集,但驾驶场景中前景区域(车道、行人、车辆)才是决策关键,基于相似度可能错误保留大量无用背景 token
核心 insight:人类驾驶员专注于相关前景区域——保留编码前景信息的视觉 token 是有效决策的关键,背景 token 可以安全丢弃。
方法详解¶
整体框架¶
训练一个轻量 ReconPruner 模块(0.07B 参数),插在 VLA 的视觉编码器之后。通过 MAE 风格重建估计每个 token 的前景显著性分数,按 Top-K 策略保留高分 token、丢弃低分 token。训练完成后可即插即用到共享同一视觉编码器的不同 VLA 模型,无需重训。
关键设计¶
- ReconPruner 架构:由一个 PrunerLayer(Qwen2.5-VL-3B 的单个解码器层)和一个 Scorer(\(\mathbb{R}^{D \times 1}\) 的线性层)组成。引入可学习查询 token \(Q \in \mathbb{R}^{1 \times D}\),与视觉 token 联合输入 PrunerLayer,通过 Hadamard 积融合后由 Scorer 输出显著性分数 \(S \in \mathbb{R}^{N \times 1}\)
- 对抗前景-背景重建策略:仅靠前景重建会导致退化解——ReconPruner 给所有 token 都打高分来提升重建性能。受 GAN 启发,额外要求用低分 token 重建背景区域,形成对抗约束:前景 token 重建前景→质量高,背景 token 重建背景→质量也高,迫使模型学会区分。使用 STE(Straight-Through Estimator)解决二值 mask 不可微的问题
- nuScenes-FG 数据集:定义驾驶场景前景(人、道路、车辆、交通标志、交通护栏),用 Grounded-SAM 对 nuScenes 进行分割标注,构建 241K 图像-mask 对,覆盖六个相机视角
- Plug-and-Play 泛化:一次针对特定视觉编码器(如 CLIP-ViT)训练 ReconPruner,可迁移到使用相同编码器的 Impromptu-VLA 等不同 VLA 模型
损失函数¶
\[\mathcal{L}_{all} = \alpha \mathcal{L}_{fore} + (1-\alpha) \mathcal{L}_{back}, \quad \alpha=0.5\]
前景/背景损失均为 MSE + SSIM 加权组合(\(\lambda=0.2\))。重建解码器由 6 层 Qwen2.5-VL-3B 解码器 + 前馈重建头组成。
实验关键数据¶
主实验:nuScenes 开环规划(基于 Impromptu-VLA)¶
| 方法 | 保留 token | L2 Avg (cm)↓ | Collision Avg (%)↓ | Intersection Avg (%)↓ | 相对性能 |
|---|---|---|---|---|---|
| 原始(100%=3249) | 3249 | 31.83 | 0.24 | 2.80 | 100% |
| FastV (↓25%) | 2436 | 32.29 | 0.31 | 2.87 | 98.6% |
| SparseVLM (↓25%) | 2436 | 32.18 | 0.28 | 2.81 | 98.9% |
| DivPrune (↓25%) | 2436 | 32.24 | 0.30 | 2.86 | 98.7% |
| FastDriveVLA (↓25%) | 2436 | 31.80 | 0.26 | 2.77 | 100.1% |
| FastV (↓50%) | 1624 | 32.59 | 0.33 | 2.99 | 97.7% |
| VisPruner (↓50%) | 1624 | 32.25 | 0.27 | 2.95 | 98.7% |
| FastDriveVLA (↓50%) | 1624 | 32.10 | 0.25 | 2.94 | 99.1% |
消融实验:关键设计贡献¶
| 配置 | Collision Avg (%) | 说明 |
|---|---|---|
| 仅前景重建 | 较高 | 退化解:所有 token 都获高分 |
| + 对抗背景重建 | 显著下降 | 有效区分前景/背景 |
| + nuScenes-FG 前景 mask | 最优 | 高质量标注进一步提升 |
| Plug-and-play 迁移 | 持平原始训练目标 | 验证跨 VLA 迁移能力 |
关键发现¶
- 25% 剪枝时几乎无损:FastDriveVLA 在剪掉 25% token 后 L2 误差甚至低于未剪枝模型(31.80 vs 31.83),Collision 率从 0.24% 仅升至 0.26%
- 50% 剪枝时优势显著:对比其他方法在 50% 剪枝时 Collision 率 0.27-0.33%,FastDriveVLA 仅 0.25%,几乎零退化
- 前景感知 > 通用剪枝:所有通用 VLM 剪枝方法在驾驶场景中效果均不如前景感知策略
亮点与洞察¶
- 驾驶场景特定设计:从人类驾驶直觉出发(关注前景忽略背景),将 domain knowledge 注入 token 剪枝策略,思路清晰且有效
- MAE 重建作为前景检测代理:巧妙避免了额外的检测模型——前景 token 能重建出有意义的像素,背景 token 重建结果平坦,利用重建能力差异进行区分
- 对抗训练解决退化解:GAN 思想的精妙应用——不是做生成对抗,而是做前景/背景的重建对抗
- 极轻量设计:ReconPruner 仅 0.07B 参数(PrunerLayer + Scorer),几乎不增加推理开销
局限性¶
- 前景定义是静态的(预定义类别),未考虑动态重要性变化(如突然冲出的行人应获更高权重)
- 仅在 nuScenes 上验证,未涉及 Waymo、KITTI 等其他驾驶数据集
- nuScenes-FG 依赖 Grounded-SAM 自动标注,标注质量可能存在噪声
- 未分析具体的推理加速比和 FPS 提升
- 重建解码器(6 层 Qwen2.5-VL-3B)在训练阶段引入额外开销,虽然推理时不需要
相关工作¶
| 方法类别 | 代表方法 | 剪枝准则 | 驾驶场景表现 |
|---|---|---|---|
| 基于注意力 | FastV, SparseVLM | 文本-视觉注意力分数 | 差:驾驶指令固定简洁 |
| 基于相似度 | VisPruner, DivPrune | token 多样性 | 差:保留无关背景 |
| 投影器压缩 | TokenPacker, Matryoshka | 重训整个模型 | 成本高,不 plug-and-play |
| 前景重建(本文) | FastDriveVLA | 前景显著性分数 | 最优:保留决策关键 token |
评分¶
- 新颖性: ⭐⭐⭐⭐ 前景重建剪枝思路新颖,对抗策略巧妙
- 实验充分度: ⭐⭐⭐⭐ 多剪枝率对比,消融完整
- 写作质量: ⭐⭐⭐⭐ motivation 从人类直觉出发清晰
- 价值: ⭐⭐⭐⭐ 对 VLA 模型实车部署有直接实用价值