跳转至

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

会议: ICCV 2025
arXiv: 2412.13180
代码: https://web.stanford.edu/~markendo/projects/feather
领域: 多模态VLM / 模型加速
关键词: visual token pruning, VLM加速, RoPE位置偏差, 定位任务, benchmark局限性

一句话总结

揭示了VLM中视觉token剪枝方法(如FastV)因RoPE的长程衰减特性导致系统性地保留图像底部token的严重缺陷,并提出FEATHER方法通过去除RoPE+均匀采样+两阶段剪枝修复该问题,在定位任务上实现5倍以上的性能提升。

背景与动机

当前VLM(如LLaVA系列)将图像编码为大量patch token输入LLM,导致推理开销巨大。FastV等方法在LLM的浅层就剪掉大量视觉token以加速推理,并声称在多数benchmark上几乎不掉点。但这引发了一个根本性问题:如此激进地丢弃视觉信息后模型仍然表现很好,到底是因为剪枝策略真的有效,还是因为benchmark本身不够challenging?

核心问题

(1) 为什么早期视觉token剪枝在定位等视觉密集型任务上惨败?(2) 为什么在大多数其他benchmark上表现依然良好?(3) 如何设计更好的剪枝策略以兼顾效率和视觉能力?

方法详解

整体框架

FEATHER是一个无需训练的VLM推理加速方法。在LLM推理过程中分两阶段剪枝视觉token:第一阶段(层8)使用去RoPE的注意力分数+均匀采样的集成准则选token;第二阶段(层16)使用去RoPE的注意力分数进一步激进剪枝。最终在层16之后仅保留3.3%的视觉token。

关键设计

  1. RoPE位置偏差的发现与修复:论文核心发现是FastV使用最后一个文本token对视觉token的注意力分数作为重要性度量,但RoPE的长程衰减特性导致距离文本token更近(即图像底部raster-scan序列靠后)的token天然获得更高的注意力分数。这使得75%剪枝时,保留token的平均位置在图像80.7%处(严重偏向底部)。修复方法极其简单:在计算剪枝用的注意力分数时不应用RoPE,从而消除位置偏差。

  2. 均匀采样的融合:注意力准则善于找到"重要"token但可能遗漏某些区域,均匀采样确保全图覆盖但缺乏选择性。FEATHER在第一阶段将两者结合:用stride-3均匀采样保底 + 去RoPE注意力选择重要token。在第二阶段(层16),由于此时注意力已经能准确识别重要token,仅用去RoPE注意力即可。

  3. Benchmark局限性的揭露:论文做了一个关键实验——把FastV选中的那些(偏底部的)token在进入LLM前就完全移除(消除信息迁移的可能),发现大多数benchmark的性能几乎不变。这证明这些benchmark根本不需要细粒度的视觉理解就能答对,是benchmark自身的缺陷。

损失函数 / 训练策略

FEATHER完全是training-free的推理时方法,不需要额外训练或微调。

实验关键数据

方法 FLOPS减少 定位Avg TextVQA 非定位VQA Avg Challenge Avg
Baseline 0% 53.2 54.9 59.3 66.1
FastV 68% 5.9 31.8 56.3 64.0
PyramidDrop 65% 28.9 47.1 57.9 65.3
FEATHER 64% 39.3 51.4 56.5 66.1
  • FEATHER在定位任务上比FastV提升5倍以上(5.9→39.3),比PyramidDrop提升36%
  • 仅保留3.3%视觉token时,定位性能仅比baseline下降26%
  • 非定位任务上也有7.8%的提升(vs FastV)

消融实验要点

  • 去RoPE单项改进:K=3时定位任务提升183%,K=8时提升17%
  • 均匀采样+注意力集成在K=3时比单独注意力提升63%定位性能
  • 剪枝层越深,注意力准则越准确(K=8优于K=3,K=16更好)
  • Token位置打乱实验证实:定位性能对位置信息极度敏感,而多数benchmark对位置信息不敏感

亮点

  • 发现极具洞察力:RoPE导致视觉token剪枝系统偏向图像底部,这个发现对整个VLM加速社区都有重要警示意义
  • 修复方法极简:去掉RoPE就能大幅改善,体现了"理解问题比复杂方案更重要"
  • Benchmark批判有价值:揭示了当前VL benchmark普遍缺乏评估细粒度视觉能力的问题,这对社区有深远影响
  • 赛车比喻精妙:两阶段剪枝类比赛车手在弯道中"先轻踩后重踩油门",直觉易懂

局限性 / 可改进方向

  • 仅在LLaVA架构(SigLIP + Llama2-7B)上验证,更大模型和其他架构(Qwen-VL等)未探索
  • 去RoPE可能引入其他未预见的注意力权重偏移
  • 两阶段剪枝的超参数(K=8, K=16)似乎是手动调的,缺乏自适应选择
  • 定位任务虽然大幅改善,但与baseline差距仍很大(39.3 vs 53.2)

与相关工作的对比

  • vs. FastV:FastV用原始注意力在K=3剪枝,FEATHER揭示其位置偏差并用去RoPE+两阶段修复,定位任务5x+提升
  • vs. PyramidDrop:PyramidDrop多阶段剪枝但仍用原始准则,FEATHER修复了准则本身的缺陷
  • vs. LLaVA-PruMerge/VisionZip:这些方法在ViT阶段剪枝,不保留位置信息,导致定位性能极差

启发与关联

  • RoPE在跨模态场景中的位置偏差问题可能普遍存在,值得在其他多模态任务中检验
  • 对benchmark的批判与ideas/multimodal_vlm/中关于VLM评估的思考相关
  • 两阶段渐进式剪枝的思路可以迁移到视频VLM的temporal token剪枝

评分

  • 新颖性: ⭐⭐⭐⭐⭐ RoPE位置偏差的发现极具洞察力,是对VLM加速领域的重要认知贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 12个benchmark全面评估,多种消融和可视化分析极为详尽
  • 写作质量: ⭐⭐⭐⭐⭐ 故事线流畅(发现问题→分析原因→揭示benchmark局限→提出修复),赛车比喻点睛
  • 价值: ⭐⭐⭐⭐⭐ 对VLM加速和benchmark设计两方面都有重要警示,实用性强