SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference¶

会议: ICML 2025
arXiv: 2410.04417
代码: https://github.com/Gumpest/SparseVLMs
领域: 多模态VLM
关键词: visual token pruning, VLM efficiency, text-guided sparsification, token recycling, training-free

一句话总结¶

SparseVLM 提出了首个文本引导的免训练视觉 token 稀疏化框架，通过选择与视觉相关的文本 token 作为"评分者"来评估视觉 token 的重要性，结合自适应剪枝比率和 token 回收机制，在 LLaVA 上仅保留 192 个 token（减少 66.7%）时维持 99.1% 的原始性能。

研究背景与动机¶

领域现状：当前视觉语言模型（VLMs）将高分辨率图像编码为大量视觉 token——一张 672×672 的图像在 LLaVA 中产生 2304 个视觉 token，占据超过一半的上下文长度。视频任务中 token 可达数千个，计算开销极大。

现有痛点：现有视觉 token 压缩方法存在两类问题：(1) 修改视像编码器或投影层的方法（如 Q-Former、DeCo）需要额外训练；(2) 在解码阶段剪枝的方法（如 FastV）忽略了文本 token 的引导作用，进行文本无关的稀疏化。面对不同问题时，模型可能需要关注图像的不同区域（前景或背景），固定的剪枝策略会丢失关键信息。

核心矛盾：图像信息本质上比文本稀疏（大量冗余），但现有方法要么需要额外训练开销，要么在剪枝时不考虑文本查询的语义引导，导致准确率和效率之间的 trade-off 过于激进。

本文目标 (1) 如何在不需要训练的前提下实现高效的视觉 token 稀疏化；(2) 如何利用文本问题引导剪枝，根据具体查询自适应保留相关视觉信息；(3) 如何减少被剪枝 token 的信息损失。

切入角度：VLM 解码器的自注意力矩阵天然包含文本到视觉的交互信息，可以直接复用来判断视觉 token 的重要性，无需额外参数。

核心 idea：利用 VLM 已有的自注意力矩阵进行文本引导的视觉 token 筛选，通过矩阵秩自适应确定剪枝比率，并回收被剪 token 的信息来最小化损失。

方法详解¶

整体框架¶

SparseVLM 作为即插即用模块嵌入 VLM 解码器层。输入为图像和文本问题，先在进入解码器前预选"文本评分者"（与视觉相关的文本 token），然后在每个解码器层中提取自注意力矩阵的文本-视觉交互部分，计算视觉 token 的重要性分数，根据注意力矩阵的秩自适应确定本层的剪枝数量，最后将被剪 token 中信息较丰富的部分聚类压缩成紧凑的重建 token。

关键设计¶

文本评分者选择（Text Rater Selection）:
- 功能：识别问题中与视觉内容真正相关的文本 token，排除介词、代词等无关词
- 核心思路：在进入解码器前，计算视觉嵌入 \(H_v\) 和文本嵌入 \(H_q\) 之间的交叉注意力 \(r = \frac{1}{L_v}\sum_{j=1}^{L_v}(\text{Softmax}(H_v H_q^T))_j\)，选择相关性超过均值 \(m=\text{mean}(r)\) 的文本 token 作为评分者。例如对药品相关问题，会选出"Tylenol"、"Advil"等关键词作为视觉筛选的依据
- 设计动机：不是所有问题词都与视觉内容相关，让无关词参与评分会导致不准确的相关性计算。实验表明该选择机制在 POPE 上比不筛选提升 2.7%
自适应稀疏化比率（Sparsification Level Adaptation）:
- 功能：根据每层的信息冗余程度，自适应确定该层需要剪枝的 token 数量
- 核心思路：利用优先级矩阵 \(P\)（文本查询与视觉键的注意力子矩阵）的秩来衡量冗余度。维度与秩的差值表示冗余量，通过缩放因子 \(\lambda\) 确定删除数 \(N = \lambda \times (L_v - \text{rank}(P))\)。矩阵秩高意味着视觉 token 之间线性独立程度高、冗余少，应少剪；秩低则冗余多，可多剪。若某层计算出 \(N=0\)，则跳过该层不剪枝
- 设计动机：不同图像的信息密度不同，固定比率的剪枝策略在简单图像上浪费计算、在复杂图像上丢失信息
视觉 Token 回收与重建（Token Recycling）:
- 功能：从被剪枝的 token 中回收信息较丰富的部分，压缩为紧凑的重建 token
- 核心思路：从被删 token 中选取优先级最高的 \(\tau\)% 进行回收。使用密度峰值聚类（DPC）算法进行自适应聚类：先计算每个 token 的局部密度 \(\rho_i\)（基于 k 近邻距离），再计算距离指标 \(\delta_i\)（到更高密度 token 的最小距离），\(\rho_i \times \delta_i\) 高的 token 成为聚类中心。最后将同一聚类内的 token 通过元素级求和压缩为单个重建 token
- 设计动机：被剪 token 虽然重要性较低，但其中优先级相对较高的部分仍包含有用信息。回收机制尤其在高压缩率下效果显著—— POPE 上从 192 剪到 64 token 时，回收机制带来的提升从 1.5% 增至 17.7%

损失函数¶

SparseVLM 是免训练方法，不引入额外的损失函数。所有操作（注意力矩阵提取、评分者选择、秩计算、聚类回收）均在推理时在线完成。

实验关键数据¶

主实验表格¶

SparseLLaVA（LLaVA + SparseVLM）在8个基准上的表现（576→192 tokens，减少66.7%）：

方法	GQA	MMB	MME	POPE	SQA	SEED	TextVQA	MMVet	平均准确率
Vanilla (576 tokens)	61.9	64.6	1864	85.9	69.5	60.3	58.3	30.9	100%
FastV (192 tokens)	52.6	61.0	1605	64.8	69.1	52.1	52.5	26.7	87.9%
SparseVLM (192 tokens)	59.5	64.1	1787	85.3	68.7	58.7	57.8	33.1	99.1%

消融表格¶

Token 回收（TR）在不同压缩率下的效果（LLaVA 7B）：

基准	64 tokens	96 tokens	128 tokens	192 tokens	平均
GQA	52.2→53.8	55.2→56.4	58.1→58.4	59.4→59.5	+0.8
POPE	72.8→77.5	77.5→81.9	83.7→85.0	85.2→85.3	+2.6

关键发现¶

4.5× 视觉 token 压缩率下（576→128），SparseVLM 维持 96.7% 原始性能，仅下降 3.3%
CUDA 延时减少 37%（57.82ms→36.50ms），FLOPs 减少 53.7%（4.62T→2.14T），同时准确率仅下降 0.9%
视频任务上（VideoLLaVA，90.5%剪枝率），SparseVLM 总平均准确率95.0%，比 FastV 高出 14.7 个百分点
Qwen2-VL 上移除54.5%视觉 token 后维持 98.0% 准确率，验证了方法在动态分辨率模型上的通用性

亮点与洞察¶

该方法是首个免训练+文本引导的 VLM 视觉 token 稀疏化框架，即插即用无需微调，实用价值极高
密度峰值聚类的 token 回收策略设计精巧：不是简单丢弃被剪 token，而是从中回收信息并压缩，随着压缩率提高效果越显著
利用注意力矩阵的秩来 measure 冗余是一个巧妙的无参数化设计

局限性¶

需要从 FlashAttention 中提取完整的注意力矩阵，虽然论文提出了兼容方案但仍引入额外开销
矩阵秩的计算复杂度为 \(O(L_t \times L_v \times \min(L_t, L_v))\)，在序列很长时可能成为瓶颈
方法对超参数 \(\lambda\)、\(\tau\)、\(\theta\) 的敏感性分析不够充分
仅在单图场景下验证；多图交错对话（multi-image interleaved dialogue）的适用性未探索
文本评分者选择在文本 token 极少时（如"Describe this image"）可能退化
尚未验证在最新的 LLaVA-OneVision、InternVL 2.5 等大规模 VLM 上的效果
逐层计算秩和聚类的开销在极长序列（如高分辨率视频）场景下可能成为瓶颈

补充分析¶

可视化结果（Figure 6）清晰展示了 SparseVLM 的注意力聚焦过程：随着解码层数增加，保留的 token 逐渐聚焦于与问题相关的区域（如问"what color"时聚焦于颜色区域），体现了文本引导的有效性。

评分¶

⭐⭐⭐⭐ （7.5/10）

方法设计完整且实用——免训练、即插即用、跨模型通用、图像和视频都适用。在保持高精度的同时实现了显著的效率提升。实验充分（3个VLM架构、8个图像基准+4个视频基准），消融分析细致。稍显不足的是理论创新有限（各组件如矩阵秩、DPC聚类都是已有技术的组合），且超参数分析不够充分。

具体来说，SparseVLM 的实际部署价值很高：67% 的 KV Cache 内存节省（302.4MB→100.8MB）对于边缘设备推理意义重大。视频任务上 90.5% 剪枝率下仍保持 95% 准确率的表现也令人印象深刻。未来可探索的方向包括：与 KV Cache 压缩方法结合、针对多图多轮对话场景的优化、以及将文本引导思想扩展到音频-文本等其他模态组合。