Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration¶
会议: ICCV 2025
arXiv: 2412.13180
代码: https://web.stanford.edu/~markendo/projects/feather
领域: 多模态VLM / 模型加速
关键词: visual token pruning, VLM加速, RoPE位置偏差, 定位任务, benchmark局限性
一句话总结¶
揭示了VLM中视觉token剪枝方法(如FastV)因RoPE的长程衰减特性导致系统性地保留图像底部token的严重缺陷,并提出FEATHER方法通过去除RoPE+均匀采样+两阶段剪枝修复该问题,在定位任务上实现5倍以上的性能提升。
背景与动机¶
当前VLM(如LLaVA系列)将图像编码为大量patch token输入LLM,导致推理开销巨大。FastV等方法在LLM的浅层就剪掉大量视觉token以加速推理,并声称在多数benchmark上几乎不掉点。但这引发了一个根本性问题:如此激进地丢弃视觉信息后模型仍然表现很好,到底是因为剪枝策略真的有效,还是因为benchmark本身不够challenging?
核心问题¶
(1) 为什么早期视觉token剪枝在定位等视觉密集型任务上惨败?(2) 为什么在大多数其他benchmark上表现依然良好?(3) 如何设计更好的剪枝策略以兼顾效率和视觉能力?
方法详解¶
整体框架¶
FEATHER是一个无需训练的VLM推理加速方法。在LLM推理过程中分两阶段剪枝视觉token:第一阶段(层8)使用去RoPE的注意力分数+均匀采样的集成准则选token;第二阶段(层16)使用去RoPE的注意力分数进一步激进剪枝。最终在层16之后仅保留3.3%的视觉token。
关键设计¶
-
RoPE位置偏差的发现与修复:论文核心发现是FastV使用最后一个文本token对视觉token的注意力分数作为重要性度量,但RoPE的长程衰减特性导致距离文本token更近(即图像底部raster-scan序列靠后)的token天然获得更高的注意力分数。这使得75%剪枝时,保留token的平均位置在图像80.7%处(严重偏向底部)。修复方法极其简单:在计算剪枝用的注意力分数时不应用RoPE,从而消除位置偏差。
-
均匀采样的融合:注意力准则善于找到"重要"token但可能遗漏某些区域,均匀采样确保全图覆盖但缺乏选择性。FEATHER在第一阶段将两者结合:用stride-3均匀采样保底 + 去RoPE注意力选择重要token。在第二阶段(层16),由于此时注意力已经能准确识别重要token,仅用去RoPE注意力即可。
-
Benchmark局限性的揭露:论文做了一个关键实验——把FastV选中的那些(偏底部的)token在进入LLM前就完全移除(消除信息迁移的可能),发现大多数benchmark的性能几乎不变。这证明这些benchmark根本不需要细粒度的视觉理解就能答对,是benchmark自身的缺陷。
损失函数 / 训练策略¶
FEATHER完全是training-free的推理时方法,不需要额外训练或微调。
实验关键数据¶
| 方法 | FLOPS减少 | 定位Avg | TextVQA | 非定位VQA Avg | Challenge Avg |
|---|---|---|---|---|---|
| Baseline | 0% | 53.2 | 54.9 | 59.3 | 66.1 |
| FastV | 68% | 5.9 | 31.8 | 56.3 | 64.0 |
| PyramidDrop | 65% | 28.9 | 47.1 | 57.9 | 65.3 |
| FEATHER | 64% | 39.3 | 51.4 | 56.5 | 66.1 |
- FEATHER在定位任务上比FastV提升5倍以上(5.9→39.3),比PyramidDrop提升36%
- 仅保留3.3%视觉token时,定位性能仅比baseline下降26%
- 非定位任务上也有7.8%的提升(vs FastV)
消融实验要点¶
- 去RoPE单项改进:K=3时定位任务提升183%,K=8时提升17%
- 均匀采样+注意力集成在K=3时比单独注意力提升63%定位性能
- 剪枝层越深,注意力准则越准确(K=8优于K=3,K=16更好)
- Token位置打乱实验证实:定位性能对位置信息极度敏感,而多数benchmark对位置信息不敏感
亮点¶
- 发现极具洞察力:RoPE导致视觉token剪枝系统偏向图像底部,这个发现对整个VLM加速社区都有重要警示意义
- 修复方法极简:去掉RoPE就能大幅改善,体现了"理解问题比复杂方案更重要"
- Benchmark批判有价值:揭示了当前VL benchmark普遍缺乏评估细粒度视觉能力的问题,这对社区有深远影响
- 赛车比喻精妙:两阶段剪枝类比赛车手在弯道中"先轻踩后重踩油门",直觉易懂
局限性 / 可改进方向¶
- 仅在LLaVA架构(SigLIP + Llama2-7B)上验证,更大模型和其他架构(Qwen-VL等)未探索
- 去RoPE可能引入其他未预见的注意力权重偏移
- 两阶段剪枝的超参数(K=8, K=16)似乎是手动调的,缺乏自适应选择
- 定位任务虽然大幅改善,但与baseline差距仍很大(39.3 vs 53.2)
与相关工作的对比¶
- vs. FastV:FastV用原始注意力在K=3剪枝,FEATHER揭示其位置偏差并用去RoPE+两阶段修复,定位任务5x+提升
- vs. PyramidDrop:PyramidDrop多阶段剪枝但仍用原始准则,FEATHER修复了准则本身的缺陷
- vs. LLaVA-PruMerge/VisionZip:这些方法在ViT阶段剪枝,不保留位置信息,导致定位性能极差
启发与关联¶
- RoPE在跨模态场景中的位置偏差问题可能普遍存在,值得在其他多模态任务中检验
- 对benchmark的批判与ideas/multimodal_vlm/中关于VLM评估的思考相关
- 两阶段渐进式剪枝的思路可以迁移到视频VLM的temporal token剪枝
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ RoPE位置偏差的发现极具洞察力,是对VLM加速领域的重要认知贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 12个benchmark全面评估,多种消融和可视化分析极为详尽
- 写作质量: ⭐⭐⭐⭐⭐ 故事线流畅(发现问题→分析原因→揭示benchmark局限→提出修复),赛车比喻点睛
- 价值: ⭐⭐⭐⭐⭐ 对VLM加速和benchmark设计两方面都有重要警示,实用性强