Variation-Aware Vision Token Dropping for Faster Large Vision-Language Models¶
会议: CVPR2026 arXiv: 2509.01552 代码: xuyang-liu16/V2Drop 领域: 多模态视觉语言模型 (Multimodal VLM) 关键词: token压缩, 视觉token剪枝, LVLM加速, 变化感知, 无训练推理加速, FlashAttention兼容
一句话总结¶
提出 V2Drop,首次从 token 变化量(variation)视角出发,通过渐进式丢弃 LLM 内部变化量最小的"懒惰"视觉 token,实现无训练、无位置偏差、兼容高效算子的 LVLM 推理加速,在图像和视频理解任务中分别保留 94.0% 和 98.6% 原始性能,同时降低 LLM 生成延迟 31.5% 和 74.2%。
背景与动机¶
- 视觉 token 数量暴增:高分辨率图像理解和长视频理解导致视觉 token 数量急剧增长,给 LVLM 推理带来二次方计算复杂度,严重制约实际部署效率。
- 注意力引导方法的位置偏差:现有 Inner-LLM token 压缩方法(如 FastV、SparseVLM、PDrop)依赖注意力权重评估 token 重要性,系统性地偏向保留序列末端的 token,无论其语义内容如何,导致丢弃重要信息、保留无关 token,加剧多模态幻觉。
- 与高效算子不兼容:注意力引导方法需要显式计算注意力权重,与 FlashAttention 等高效算子冲突,峰值显存反而超过未压缩模型(如 SparseVLM 在 MVBench 上显存增加 54.8%),违背了加速的初衷。
- 外部信号 vs 内在属性的根本矛盾:依赖注意力等外部信号评估 token 重要性是间接且不可靠的,能否直接通过 token 自身在模型内部的行为模式来判断其重要性?这一根本问题尚未被探索。
- 训练开销限制可扩展性:部分 token 压缩方法需要额外训练(training-aware),难以即插即用地应用于不同模型,限制了方法的通用性和可扩展性。
- 视频理解中的长序列瓶颈:VideoLLM 处理越来越长的视频序列(如多小时帧级理解),现有方法要么压缩不足,要么因位置偏差过度保留后帧 token 忽略前帧关键信息,亟需位置无关的高效压缩方案。
方法详解¶
核心洞察:Token 变化量反映重要性¶
作者首次系统分析了视觉 token 在 LLM 各层间的表征变化(variation),发现关键规律:在 LLM 层间变化量大的 token 对应任务相关区域,变化量小的 token("懒惰 token")对应任务无关区域。这一规律具有任务无关性(task-agnostic),在不同问题和空间位置上均成立,天然避免了位置偏差。
变化量度量¶
使用三种指标衡量相邻层间 token 变化:
- L1 距离:捕捉稀疏变化
- L2 距离(默认):捕捉整体幅度变化,性能-效率最优平衡
- 余弦相似度:捕捉表征方向变化
公式:\(\text{Var}(\mathbf{f}_i^{(l-1)}, \mathbf{f}_i^{(l)}) = \|\mathbf{f}_i^{(l)} - \mathbf{f}_i^{(l-1)}\|_2\)
渐进式丢弃策略(V2Drop)¶
在 LLM 的浅层、中层、深层三个策略性位置执行剪枝,每个剪枝层执行三步操作:
- 变化量计算:对每个视觉 token 计算与上一层的 L2 距离
- 排序与选择:按变化量降序排列,保留 Top-K 个高变化量 token
- Token 重组:将选中 token 重新组织供后续层使用
渐进式丢弃调度:\(M \rightarrow K_a \rightarrow K_b \rightarrow K_c\),逐步减少 token 数量,避免一次性丢弃导致的信息损失。
理论保证¶
通过一阶 Taylor 展开证明了 Variation-Impact 定理:token 变化量 \(\|\Delta x_j^{(t)}\|\) 与其对模型输出的影响 \(\|\Delta f_j\|\) 成正比(在平滑假设下),即 \(\|\Delta f_j\| \approx \|J_j\|_{\text{op}} \cdot \|\Delta x_j^{(t)}\|\)。变化量大的 token 对最终预测影响更大,为基于变化量的剪枝提供了理论依据。
计算开销极低¶
三层剪枝总计约 21M FLOPs,仅占完整前向传播的 0.002%,吞吐量与随机丢弃几乎相同(9.01 vs 9.08 items/s)。
实验关键数据¶
图像理解:LLaVA-1.5-7B 上不同压缩率对比¶
| 方法 | 保留 token 数 | GQA | SQA | TextVQA | POPE | MME | MMBench | Avg% |
|---|---|---|---|---|---|---|---|---|
| 原始模型 | 576 (100%) | 61.9 | 69.5 | 58.2 | 85.9 | 1862 | 64.6 | 100% |
| FastV | 192 (↓67%) | 52.7 | 67.3 | 52.5 | 64.8 | 1612 | 61.2 | 88.2% |
| SparseVLM | 192 (↓67%) | 57.6 | 69.1 | 56.1 | 83.6 | 1721 | 62.5 | 95.9% |
| PDrop | 192 (↓67%) | 57.1 | 68.8 | 56.1 | 82.3 | 1766 | 63.2 | 96.0% |
| V2Drop | 192 (↓67%) | 58.5 | 69.3 | 55.6 | 85.1 | 1826 | 63.7 | 97.6% |
| FastV | 128 (↓78%) | 49.6 | 60.2 | 50.6 | 59.6 | 1490 | 56.1 | 81.7% |
| V2Drop | 128 (↓78%) | 56.3 | 68.8 | 53.8 | 80.9 | 1712 | 61.8 | 94.0% |
V2Drop 在 67% 压缩率下保留 97.6% 性能,领先第二名 PDrop 1.6%;在 78% 压缩率下仍保持 94.0%。
效率对比:推理延迟与显存(LLaVA-1.5-7B / LLaVA-OV-7B)¶
| 方法 | LLM延迟降低 | 总延迟降低 | 峰值显存变化 | 吞吐提升 | 性能保留 |
|---|---|---|---|---|---|
| FastV (图像) | ↓26.5% | ↓17.6% | ↑3.7% | 1.21× | 86.8% |
| SparseVLM (图像) | ↓28.0% | ↓18.6% | ↑23.5% | 1.23× | 92.9% |
| V2Drop (图像) | ↓31.5% | ↓20.8% | ↓3.3% | 1.26× | 95.7% |
| SparseVLM (视频) | ↓34.4% | ↓20.0% | ↑54.8% | 1.06× | 99.1% |
| V2Drop (视频) | ↓74.2% | ↓46.5% | ↓7.8% | 1.38× | 99.1% |
V2Drop 是唯一同时降低延迟和显存的方法;SparseVLM 虽性能相当但显存暴增 54.8%。
亮点¶
- 视角原创性强:首次从 token 变化量角度审视 token 重要性,开辟了区别于注意力引导的全新压缩范式
- 理论与实验统一:Variation-Impact 定理提供严格理论保证,实验全面验证(6 个图像 benchmark + 2 个视频 benchmark + 3 个模型)
- 真正的即插即用:无需训练、无需修改架构、兼容 FlashAttention,计算开销仅 0.002%,工程部署友好
- 位置偏差问题的根本性解决:基于内在属性而非外部信号,天然避免注意力方法的位置偏差缺陷
- 视频场景优势突出:在视频理解中仅保留 25% token 即达 98.6% 原始性能,远超同类方法,长视频优势尤为明显
局限性 / 可改进方向¶
- 剪枝层位置和保留 token 数量需预设,缺乏自适应机制根据输入内容动态调整压缩率
- 三种变化量度量(L1/L2/余弦)的选择依赖经验,未探索更复杂的变化量度量方式
- 仅在 7B 量级模型上验证,对 70B+ 大模型和更新架构(如 MoE)的适用性未知
- 理论分析基于一阶 Taylor 近似和平滑假设,在深度网络的极端层可能不完全成立
- 未探索与 Pre-LLM 压缩方法的组合效果,两者可能存在互补空间
与相关工作的对比¶
- vs FastV (ECCV'24):FastV 采用一次性丢弃 + 注意力引导,存在严重位置偏差(POPE 上 59.6 vs V2Drop 80.9),且显存增加;V2Drop 渐进丢弃 + 变化量引导,全面超越
- vs SparseVLM (ICML'25):SparseVLM 同为渐进式但依赖注意力 + token 合并,导致视频场景显存暴增 54.8%;V2Drop 性能相当但显存反降
- vs PDrop (CVPR'25):PDrop 同为注意力引导的渐进丢弃,V2Drop 在所有压缩率下均优于 PDrop,且兼容 FlashAttention
- vs ToMe (ICLR'23):ToMe 采用 token 合并策略,压缩激进时性能急剧下降(64 token 时仅 69.7%);V2Drop 在同等压缩下保持 86.9%
- vs Pre-LLM 方法(如 LLaVA-PruMerge):Pre-LLM 方法在 LLM 之前压缩,可能丢失 LLM 处理中的上下文信息;V2Drop 在 LLM 内部剪枝,利用层间信息更精准
评分¶
- 新颖性: ⭐⭐⭐⭐ — 变化量视角是全新切入点,但核心操作(L2 距离 + Top-K)本身较简单
- 实验充分度: ⭐⭐⭐⭐⭐ — 多模型、多 benchmark、多压缩率、效率分析、可视化、消融齐全
- 写作质量: ⭐⭐⭐⭐⭐ — 动机清晰、问题定义精准、理论推导严谨、图表直观
- 价值: ⭐⭐⭐⭐ — 实用性强且对社区有启发,但方法简洁性也意味着提升空间有限