V2Drop: Variation-aware Vision Token Dropping for Faster Large Vision-Language Models¶
会议: CVPR 2026
arXiv: 2509.01552
代码: https://github.com/xuyang-liu16/V2Drop
领域: 多模态VLM / 模型加速
关键词: 视觉token压缩, LVLM推理加速, token变化量, 无训练加速, FlashAttention兼容
一句话总结¶
首次从token变化量视角出发,发现LLM层间变化小的"懒惰"视觉token对输出影响可忽略,提出V2Drop渐进式剪除低变化token,在图像理解上保留94.0%性能同时减少31.5%生成延迟,视频理解上保留98.6%性能减少74.2%延迟,且完全兼容FlashAttention。
背景与动机¶
LVLM处理高分辨率图像和长视频时视觉token数量爆炸,推理效率成为瓶颈。现有LLM内部token压缩方法(FastV、SparseVLM、PDrop)依赖注意力权重筛选重要token,但存在两大致命缺陷:(1) 位置偏差——注意力分数系统性地偏向序列末尾的token,无论其内容是否重要,导致丢弃真正有信息的token并加剧幻觉;(2) 与高效算子不兼容——计算注意力权重与FlashAttention冲突,导致峰值内存反而超过未压缩模型(SparseVLM在MVBench上增加54.8%内存)。
核心问题¶
能否不依赖注意力权重这种间接信号,而从token的内在行为模式直接评估其重要性,实现无位置偏差且兼容高效算子的LVLM推理加速?
方法详解¶
整体框架¶
V2Drop是training-free的即插即用方案。在LLM推理的prefilling阶段,选择浅/中/深三个层(如第3/17/22层)进行渐进式视觉token剪除。每个剪除层计算token在相邻层间的L2变化量,按变化量排序保留高变化token、丢弃低变化的"懒惰"token。剪除后重组序列继续前向传播,不需要重新计算注意力权重。
关键设计¶
-
Token变化量即重要性:核心洞察是LLM层间变化量大的视觉token正在被网络积极处理和提取信息(\(\Delta x_j^{(t)} = x_j^{(t+1)} - x_j^{(t)}\)代表残差连接中Attention+FFN的有效更新),而变化量小的"懒惰"token对最终输出几乎无影响。理论证明(Variation-Impact Theorem):\(\|\Delta f_j\| \approx \|J_j\|_{op} \cdot \|\Delta x_j^{(t)}\|\),即token对输出的影响与其变化量成正比。关键优势:三种度量(L1/L2/cosine)都能准确定位语义相关区域且不受位置影响。
-
渐进式三阶段剪除:不是一次性剪除,而是在浅/中/深三层分别剪除,如576→288→192→target。渐进策略比一次性剪除在MME上高109分、POPE上高8%。这是因为浅层剪除基于初步语义判断,深层剪除基于更精炼的表示。
-
与FlashAttention的天然兼容性:V2Drop仅需计算相邻层特征的L2距离(复杂度\(3MD'\) FLOPs),不需要显式注意力矩阵,因此完全兼容FlashAttention。计算开销仅为单个注意力层的0.022%,整个前向传播的0.002%,实测吞吐量与随机剪除几乎相同(9.01 vs 9.08 items/s)。
损失函数 / 训练策略¶
完全training-free,无需任何训练。默认使用L2距离作为变化量度量。在LLaVA-1.5-7B上,剪除层为第3/17/22层;保留192 token时,三层分别剪除50%/70%/100%的视觉token。
实验关键数据¶
| 模型/任务 | 保留率 | V2Drop性能 | 最优对比 | 加速比 | 内存 |
|---|---|---|---|---|---|
| LLaVA-1.5-7B 图像 | 33.3% (192/576) | 97.6% | PDrop 96.0% | 1.26× | -3.3% |
| LLaVA-1.5-7B 图像 | 22.2% (128/576) | 94.0% | PDrop 93.6% | — | — |
| LLaVA-OV-7B 视频 | 25% | 98.6% | SparseVLM 98.4% | 1.38× | -7.8% |
| LLaVA-OV-7B 视频 | 15% | 93.9% | SparseVLM 92.1% | — | — |
| Qwen2-VL-7B 图像 | 33.3% | 96.0% | DART 95.5% | — | — |
| Qwen2-VL-7B 视频 | 20% | 93.3% | DART 90.5% | — | — |
关键效率对比(LLaVA-OV-7B视频):V2Drop内存16298MB vs SparseVLM 27378MB(SparseVLM增加54.8%!),吞吐量0.72 vs 0.55 items/s。
消融实验要点¶
- 变化量度量选择:L2 > L1 ≈ Cosine > FastV(注意力),三种变化量度量全面优于注意力引导
- 渐进剪除至关重要:MME上渐进1826 vs 一次性1717,POPE上85.1% vs 77.1%
- 层选择鲁棒性好:6种不同层组合性能在96.0%-97.6%之间,对层选择不敏感
- 位置偏差消除:可视化显示V2Drop保留的token在空间上均匀分布,而FastV/SparseVLM严重偏向序列末尾
- 视频长视频优势:在VideoMME (Long)上优势更大,因为注意力方法对后帧token的偏好在长视频中更严重
亮点¶
- 视角转换:"不看注意力,看变化量"是一个简洁且powerful的范式转换,且有严格理论支撑
- 完全兼容FlashAttention是对实际部署最重要的优势——现有注意力引导方法的"加速"可能反而增加内存
- 在视频理解上的优势尤为突出(98.6%性能、74.2%延迟减少),因为视频token数更多、位置偏差更严重
- 理论分析(Variation-Impact Theorem)将变化量与输出影响严格关联,不是事后解释而是先验推导
- 代码开源,实现极简(仅需一行L2距离计算+TopK选择)
局限性 / 可改进方向¶
- 三阶段剪除的层选择和压缩比调度仍需手动设定,自适应策略可能更优
- 理论分析假设Jacobian范数有下界,对接近0的token分析不够细致
- 仅测试了7B规模模型,更大模型(70B+)的效果待验证
- 变化量评估仅用相邻层,跨多层的变化模式可能提供更丰富的信号
- prefilling阶段的加速对短prompt场景收益有限,主要受益场景是高分辨率/长视频
与相关工作的对比¶
- vs FastV:FastV基于注意力剪除,有位置偏差且不兼容FlashAttention。V2Drop在192 token时97.6% vs 88.2%,性能差距巨大
- vs SparseVLM:SparseVLM通过注意力排序+token回收,性能不错但峰值内存增加23.5%-54.8%。V2Drop性能相当甚至更好但内存反而减少
- vs PDrop:PDrop渐进式注意力剪除是最接近的竞争者,V2Drop在图像上+1.6%(97.6% vs 96.0%),视频上+2.6%(98.6% vs 96.0%)
- vs DyCoke:DyCoke专为视频设计但在LLaVA-OV 25%保留率下仅87.1%,V2Drop 98.6%
启发与关联¶
- "变化量即重要性"的思想可推广到NLP(文本token剪除)和多模态融合(跨模态token对齐)
- 位置偏差问题的诊断对所有使用注意力作为重要性信号的方法都有警示
- 与GKD (VFM蒸馏)互补:GKD解决模型压缩,V2Drop解决推理加速,二者可以组合使用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 视角原创性强,首次从token变化量出发做token压缩,且理论严格
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型(LLaVA/Qwen2-VL)×多任务(图像/视频)×多对比×多消融,效率分析详尽
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,理论和实验配合紧密,可视化直观
- 价值: ⭐⭐⭐⭐⭐ 实用性极强,training-free+兼容FlashAttention+开源,可直接部署