Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration¶

会议: ICCV 2025
arXiv: 2412.13180
代码: https://web.stanford.edu/~markendo/projects/feather
领域: 多模态VLM / 模型加速
关键词: visual token pruning, VLM加速, RoPE位置偏差, 定位任务, benchmark局限性

一句话总结¶

揭示了VLM中视觉token剪枝方法（如FastV）因RoPE的长程衰减特性导致系统性地保留图像底部token的严重缺陷，并提出FEATHER方法通过去除RoPE+均匀采样+两阶段剪枝修复该问题，在定位任务上实现5倍以上的性能提升。

背景与动机¶

当前VLM（如LLaVA系列）将图像编码为大量patch token输入LLM，导致推理开销巨大。FastV等方法在LLM的浅层就剪掉大量视觉token以加速推理，并声称在多数benchmark上几乎不掉点。但这引发了一个根本性问题：如此激进地丢弃视觉信息后模型仍然表现很好，到底是因为剪枝策略真的有效，还是因为benchmark本身不够challenging？

核心问题¶

(1) 为什么早期视觉token剪枝在定位等视觉密集型任务上惨败？(2) 为什么在大多数其他benchmark上表现依然良好？(3) 如何设计更好的剪枝策略以兼顾效率和视觉能力？

方法详解¶

整体框架¶

FEATHER是一个无需训练的VLM推理加速方法。在LLM推理过程中分两阶段剪枝视觉token：第一阶段（层8）使用去RoPE的注意力分数+均匀采样的集成准则选token；第二阶段（层16）使用去RoPE的注意力分数进一步激进剪枝。最终在层16之后仅保留3.3%的视觉token。

关键设计¶

RoPE位置偏差的发现与修复：论文核心发现是FastV使用最后一个文本token对视觉token的注意力分数作为重要性度量，但RoPE的长程衰减特性导致距离文本token更近（即图像底部raster-scan序列靠后）的token天然获得更高的注意力分数。这使得75%剪枝时，保留token的平均位置在图像80.7%处（严重偏向底部）。修复方法极其简单：在计算剪枝用的注意力分数时不应用RoPE，从而消除位置偏差。
均匀采样的融合：注意力准则善于找到"重要"token但可能遗漏某些区域，均匀采样确保全图覆盖但缺乏选择性。FEATHER在第一阶段将两者结合：用stride-3均匀采样保底 + 去RoPE注意力选择重要token。在第二阶段（层16），由于此时注意力已经能准确识别重要token，仅用去RoPE注意力即可。
Benchmark局限性的揭露：论文做了一个关键实验——把FastV选中的那些（偏底部的）token在进入LLM前就完全移除（消除信息迁移的可能），发现大多数benchmark的性能几乎不变。这证明这些benchmark根本不需要细粒度的视觉理解就能答对，是benchmark自身的缺陷。

损失函数 / 训练策略¶

FEATHER完全是training-free的推理时方法，不需要额外训练或微调。

实验关键数据¶

方法	FLOPS减少	定位Avg	TextVQA	非定位VQA Avg	Challenge Avg
Baseline	0%	53.2	54.9	59.3	66.1
FastV	68%	5.9	31.8	56.3	64.0
PyramidDrop	65%	28.9	47.1	57.9	65.3
FEATHER	64%	39.3	51.4	56.5	66.1

FEATHER在定位任务上比FastV提升5倍以上（5.9→39.3），比PyramidDrop提升36%
仅保留3.3%视觉token时，定位性能仅比baseline下降26%
非定位任务上也有7.8%的提升（vs FastV）

消融实验要点¶

去RoPE单项改进：K=3时定位任务提升183%，K=8时提升17%
均匀采样+注意力集成在K=3时比单独注意力提升63%定位性能
剪枝层越深，注意力准则越准确（K=8优于K=3，K=16更好）
Token位置打乱实验证实：定位性能对位置信息极度敏感，而多数benchmark对位置信息不敏感

亮点¶

发现极具洞察力：RoPE导致视觉token剪枝系统偏向图像底部，这个发现对整个VLM加速社区都有重要警示意义
修复方法极简：去掉RoPE就能大幅改善，体现了"理解问题比复杂方案更重要"
Benchmark批判有价值：揭示了当前VL benchmark普遍缺乏评估细粒度视觉能力的问题，这对社区有深远影响
赛车比喻精妙：两阶段剪枝类比赛车手在弯道中"先轻踩后重踩油门"，直觉易懂

局限性 / 可改进方向¶

仅在LLaVA架构（SigLIP + Llama2-7B）上验证，更大模型和其他架构（Qwen-VL等）未探索
去RoPE可能引入其他未预见的注意力权重偏移
两阶段剪枝的超参数（K=8, K=16）似乎是手动调的，缺乏自适应选择
定位任务虽然大幅改善，但与baseline差距仍很大（39.3 vs 53.2）

与相关工作的对比¶

vs. FastV：FastV用原始注意力在K=3剪枝，FEATHER揭示其位置偏差并用去RoPE+两阶段修复，定位任务5x+提升
vs. PyramidDrop：PyramidDrop多阶段剪枝但仍用原始准则，FEATHER修复了准则本身的缺陷
vs. LLaVA-PruMerge/VisionZip：这些方法在ViT阶段剪枝，不保留位置信息，导致定位性能极差

启发与关联¶

RoPE在跨模态场景中的位置偏差问题可能普遍存在，值得在其他多模态任务中检验
对benchmark的批判与ideas/multimodal_vlm/中关于VLM评估的思考相关
两阶段渐进式剪枝的思路可以迁移到视频VLM的temporal token剪枝

评分¶

新颖性: ⭐⭐⭐⭐⭐ RoPE位置偏差的发现极具洞察力，是对VLM加速领域的重要认知贡献
实验充分度: ⭐⭐⭐⭐⭐ 12个benchmark全面评估，多种消融和可视化分析极为详尽
写作质量: ⭐⭐⭐⭐⭐ 故事线流畅（发现问题→分析原因→揭示benchmark局限→提出修复），赛车比喻点睛
价值: ⭐⭐⭐⭐⭐ 对VLM加速和benchmark设计两方面都有重要警示，实用性强