FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning¶

会议: AAAI 2026
arXiv: 2507.23318
代码: 未公开
领域: 多模态 VLM / 自动驾驶
关键词: VLA 模型加速, 视觉 token 剪枝, 前景重建, 自动驾驶, plug-and-play

一句话总结¶

提出 FastDriveVLA，通过 MAE 风格的前景像素重建训练轻量级 plug-and-play 的 ReconPruner 模块（仅 0.07B），利用对抗前景-背景重建策略优先保留驾驶决策所需的前景 token，在 nuScenes 开环规划基准上各剪枝率均达 SOTA，一次训练可迁移至同一视觉编码器的不同 VLA 模型。

研究背景与动机¶

Vision-Language-Action（VLA）模型在端到端自动驾驶中展现了强大的场景理解和动作推理能力，但视觉编码器产生的大量 token（如 3249 个）带来巨大计算开销和推理延迟，严重制约实车部署。现有 VLM token 剪枝方法存在两个根本问题：

基于注意力的方法（FastV, SparseVLM）：依赖文本-视觉注意力分数评估 token 重要性，但驾驶场景中指令固定且简洁，无法提供有效的 token 选择引导
基于相似度的方法（VisPruner, DivPrune）：通过 token 多样性选择子集，但驾驶场景中前景区域（车道、行人、车辆）才是决策关键，基于相似度可能错误保留大量无用背景 token

核心 insight：人类驾驶员专注于相关前景区域——保留编码前景信息的视觉 token 是有效决策的关键，背景 token 可以安全丢弃。

方法详解¶

整体框架¶

训练一个轻量 ReconPruner 模块（0.07B 参数），插在 VLA 的视觉编码器之后。通过 MAE 风格重建估计每个 token 的前景显著性分数，按 Top-K 策略保留高分 token、丢弃低分 token。训练完成后可即插即用到共享同一视觉编码器的不同 VLA 模型，无需重训。

关键设计¶

ReconPruner 架构：由一个 PrunerLayer（Qwen2.5-VL-3B 的单个解码器层）和一个 Scorer（\(\mathbb{R}^{D \times 1}\) 的线性层）组成。引入可学习查询 token \(Q \in \mathbb{R}^{1 \times D}\)，与视觉 token 联合输入 PrunerLayer，通过 Hadamard 积融合后由 Scorer 输出显著性分数 \(S \in \mathbb{R}^{N \times 1}\)
对抗前景-背景重建策略：仅靠前景重建会导致退化解——ReconPruner 给所有 token 都打高分来提升重建性能。受 GAN 启发，额外要求用低分 token 重建背景区域，形成对抗约束：前景 token 重建前景→质量高，背景 token 重建背景→质量也高，迫使模型学会区分。使用 STE（Straight-Through Estimator）解决二值 mask 不可微的问题
nuScenes-FG 数据集：定义驾驶场景前景（人、道路、车辆、交通标志、交通护栏），用 Grounded-SAM 对 nuScenes 进行分割标注，构建 241K 图像-mask 对，覆盖六个相机视角
Plug-and-Play 泛化：一次针对特定视觉编码器（如 CLIP-ViT）训练 ReconPruner，可迁移到使用相同编码器的 Impromptu-VLA 等不同 VLA 模型

损失函数¶

\[\mathcal{L}_{all} = \alpha \mathcal{L}_{fore} + (1-\alpha) \mathcal{L}_{back}, \quad \alpha=0.5\]

前景/背景损失均为 MSE + SSIM 加权组合（\(\lambda=0.2\)）。重建解码器由 6 层 Qwen2.5-VL-3B 解码器 + 前馈重建头组成。

实验关键数据¶

主实验：nuScenes 开环规划（基于 Impromptu-VLA）¶

方法	保留 token	L2 Avg (cm)↓	Collision Avg (%)↓	Intersection Avg (%)↓	相对性能
原始（100%=3249）	3249	31.83	0.24	2.80	100%
FastV (↓25%)	2436	32.29	0.31	2.87	98.6%
SparseVLM (↓25%)	2436	32.18	0.28	2.81	98.9%
DivPrune (↓25%)	2436	32.24	0.30	2.86	98.7%
FastDriveVLA (↓25%)	2436	31.80	0.26	2.77	100.1%
FastV (↓50%)	1624	32.59	0.33	2.99	97.7%
VisPruner (↓50%)	1624	32.25	0.27	2.95	98.7%
FastDriveVLA (↓50%)	1624	32.10	0.25	2.94	99.1%

消融实验：关键设计贡献¶

配置	Collision Avg (%)	说明
仅前景重建	较高	退化解：所有 token 都获高分
+ 对抗背景重建	显著下降	有效区分前景/背景
+ nuScenes-FG 前景 mask	最优	高质量标注进一步提升
Plug-and-play 迁移	持平原始训练目标	验证跨 VLA 迁移能力

关键发现¶

25% 剪枝时几乎无损：FastDriveVLA 在剪掉 25% token 后 L2 误差甚至低于未剪枝模型（31.80 vs 31.83），Collision 率从 0.24% 仅升至 0.26%
50% 剪枝时优势显著：对比其他方法在 50% 剪枝时 Collision 率 0.27-0.33%，FastDriveVLA 仅 0.25%，几乎零退化
前景感知 > 通用剪枝：所有通用 VLM 剪枝方法在驾驶场景中效果均不如前景感知策略

亮点与洞察¶

驾驶场景特定设计：从人类驾驶直觉出发（关注前景忽略背景），将 domain knowledge 注入 token 剪枝策略，思路清晰且有效
MAE 重建作为前景检测代理：巧妙避免了额外的检测模型——前景 token 能重建出有意义的像素，背景 token 重建结果平坦，利用重建能力差异进行区分
对抗训练解决退化解：GAN 思想的精妙应用——不是做生成对抗，而是做前景/背景的重建对抗
极轻量设计：ReconPruner 仅 0.07B 参数（PrunerLayer + Scorer），几乎不增加推理开销

局限性¶

前景定义是静态的（预定义类别），未考虑动态重要性变化（如突然冲出的行人应获更高权重）
仅在 nuScenes 上验证，未涉及 Waymo、KITTI 等其他驾驶数据集
nuScenes-FG 依赖 Grounded-SAM 自动标注，标注质量可能存在噪声
未分析具体的推理加速比和 FPS 提升
重建解码器（6 层 Qwen2.5-VL-3B）在训练阶段引入额外开销，虽然推理时不需要

评分¶

新颖性: ⭐⭐⭐⭐ 前景重建剪枝思路新颖，对抗策略巧妙
实验充分度: ⭐⭐⭐⭐ 多剪枝率对比，消融完整
写作质量: ⭐⭐⭐⭐ motivation 从人类直觉出发清晰
价值: ⭐⭐⭐⭐ 对 VLA 模型实车部署有直接实用价值

方法类别	代表方法	剪枝准则	驾驶场景表现
基于注意力	FastV, SparseVLM	文本-视觉注意力分数	差：驾驶指令固定简洁
基于相似度	VisPruner, DivPrune	token 多样性	差：保留无关背景
投影器压缩	TokenPacker, Matryoshka	重训整个模型	成本高，不 plug-and-play
前景重建（本文）	FastDriveVLA	前景显著性分数	最优：保留决策关键 token