Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving¶

会议: CVPR 2026
arXiv: 2508.13305
代码: https://github.com/MinhaoXiong/Prune2Drive.git
领域: 自动驾驶 / VLM加速 / Token剪枝
关键词: 多视角VLM, 视觉token剪枝, 多样性感知采样, 视图自适应, 自动驾驶

一句话总结¶

首个面向多视角自动驾驶VLM的即插即用token剪枝框架Prune2Drive，通过T-FPS（token级最远点采样）保持语义/空间多样性 + 视图自适应剪枝率优化自动分配不同视角的token预算,在DriveLM上仅保留10% token即实现6.40×prefill加速且性能仅降3%。

背景与动机¶

自动驾驶VLM(DriveMM/DriveLMM-o1)需处理6个环视摄像头的高分辨率图像(每图729 tokens),总计>4000 visual tokens,导致\(O(n^2)\)注意力计算极慢。现有token剪枝方法（FastV/SparseVLM）针对单图设计,有三个缺陷：(1) 依赖注意力权重→不兼容FlashAttention；(2) 存在位置偏差→后端token被系统性保留；(3) 忽视多视角的差异性贡献→前视和后视摄像头对驾驶决策的重要性不同,不应均匀剪枝。

核心问题¶

如何在多视角自动驾驶场景下,设计一个不依赖注意力权重、考虑视图贡献差异的training-free token剪枝方法？

方法详解¶

整体框架¶

两个核心组件：(1) T-FPS (Token-wise Farthest Point Sampling)：在token嵌入空间中用最远点采样迭代选择最具多样性的token子集；(2) 视图自适应剪枝率优化：用TPE（Tree-structured Parzen Estimator）在小验证集上自动搜索每个摄像头视角的最优token保留率。

关键设计¶

T-FPS多样性感知选择：借鉴点云处理中的FPS算法,但用余弦距离替代欧氏距离。初始随机选一个token,每一步选择与已选集合余弦距离最大的token加入,直到达到目标数量。关键优势：(a) 不依赖注意力→兼容FlashAttention；(b) 最大化语义+空间覆盖→避免丢失低注意力但重要的物体（如远处车辆）；(c) 计算开销极低——N=729时仅0.02s,<0.1% FLOPs。
视图自适应剪枝率优化：将每个视角的保留率\(\alpha_i\)作为可优化变量,目标函数\(\mathcal{M}(\alpha) = R(\alpha) - \lambda P(\alpha)\)平衡性能奖励和token总量惩罚。用TPE在500个样本的小验证集上搜索最优解,仅需3 H100 GPU小时即可收敛。结果显示：前视摄像头自动获得更高保留率（对驾驶决策更重要），后视和侧视适度减少。
理论保证：证明了T-FPS（k-center贪心近似最小Hausdorff距离）+视图自适应率（按重要性加权分配预算）的组合方案,比均匀随机采样+等比例剪枝能提供更紧的误差界。

损失函数 / 训练策略¶

完全training-free。T-FPS在视觉编码器输出后直接应用,视图自适应率在小验证集上离线搜索一次即固定。兼容LLaVA-OneVision-7B(DriveMM)和InternVL2.5-8B(DriveLMM-o1)。

实验关键数据¶

DriveLM (DriveMM, 10% token保留):

方法	Token/图	Avg Score	Prefill加速	FLOPs
Vanilla	729	59.1	1×	100%
FastV	72	54.1	5.78×	14.2%
SparseVLM	72	55.9	4.06×	14.4%
Prune2Drive	72	57.4	6.40×	13.4%

DriveLMM-o1: 10%保留→68.3 vs vanilla 74.2(下降6%),优于FastV(65.3)、DART(67.4)。

通用VLM (LLaVA-1.5, 128 tokens): 97.3% avg performance,优于SparseVLM 96.2%。

视频AD (OmniDrive): 49.0 vs vanilla 50.3,优于FastV 44.3和SparseVLM 46.8。

消融实验要点¶

距离度量: 余弦 ≈ L1 ≈ L2 >> min距离（最近采样导致严重退化-15%,验证了多样性原则）
TPE > Evolutionary > GridSearch: 差异较小(<1%),均优于手工设定
Match Score 25%保留甚至超原模型(34.0 vs 33.9)：适度剪枝有正则化效果（去除冗余/干扰token）
T-FPS也在通用VLM上work: LLaVA-1.5 64 tokens时94.3%（SparseVLM 89.5%）——差距更大
失败模式：大面积均匀色块物体（橙色公交车）因特征相似可能被欠采样

亮点¶

首个专为多视角自动驾驶设计的token剪枝——不是简单迁移单图方法
T-FPS的FPS思路极其优雅——在token嵌入空间而非3D空间做最远点采样,保证语义多样性
视图自适应率优化直接解决了"前视vs后视重要性不同"的实际问题
6.40×的prefill加速对实时驾驶系统有直接工业价值
兼容FlashAttention且开销极低（0.02s/图）

局限性 / 可改进方向¶

仅在离线benchmark上评估,缺少闭环仿真验证
T-FPS对大面积均匀色块物体可能欠采样（因为特征相似度高→距离小→不被FPS选中）
视图自适应率是离线搜索的固定值,未做动态输入自适应
未与V2Drop/ApET等最新token压缩方法对比——仅对比FastV/SparseVLM/DART/PACT
仅测试了DriveMM和DriveLMM-o1两个AD模型

与相关工作的对比¶

vs FastV (注意力剪枝)：FastV依赖第2层注意力,有位置偏差且不兼容FA。Prune2Drive不用注意力,10% token时57.4 vs 54.1(+3.3)
vs DART (相似度剪枝)：DART用余弦相似度但不考虑视图差异。Prune2Drive加入视图自适应,10% token时57.4 vs DriveLM未报告
vs V2Drop (CVPR'26)：V2Drop用层间变化量在LLM内部剪枝,Prune2Drive用FPS在编码器输出后剪枝——二者正交可组合
vs ApET (CVPR'26)：ApET用近似误差做重要性评估,Prune2Drive用多样性最大化——思路不同但目标类似

启发与关联¶

T-FPS的"嵌入空间FPS"策略可推广到所有多图VLM场景——如医学多视角成像、机器人多摄像头系统
视图自适应率优化的reward-penalty框架可用于其他需要跨模态/跨source预算分配的场景
与DUET-VLM的视觉侧聚类+语言侧剪枝思路互补——可以用T-FPS替代DUET的V2V聚类

评分¶

新颖性: ⭐⭐⭐⭐ T-FPS和视图自适应率均为清晰的新贡献，但各组件不算复杂
实验充分度: ⭐⭐⭐⭐⭐ 2个AD基准+1个视频AD+5个通用VLM、效率分析、消融、可视化、失败分析
写作质量: ⭐⭐⭐⭐ 结构清晰，理论分析加分，但部分表格格式不够精炼
价值: ⭐⭐⭐⭐⭐ 自动驾驶VLM的实时部署极需此类方法，6.40×加速有直接工业价值