MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs¶

会议: ICLR 2026
arXiv: 2508.18264
代码: 无
领域: Multimodal / VLM
关键词: vision token selection, coverage maximization, submodular optimization, VLM efficiency, token pruning

一句话总结¶

提出MMTok——一种基于最大覆盖问题（Maximum Coverage Problem）的多模态视觉token选择框架，同时利用文本-视觉和视觉-视觉覆盖信息来选择最具信息量的视觉token子集，在training-free设置下显著优于单模态baseline，甚至超越需要微调的方法。

研究背景与动机¶

视觉语言模型（VLM）将图像转化为视觉token后与文本token拼接输入LLM，但视觉token数量远超文本token（如LLaVA-NeXT中单张图像可产生2,880个视觉token，而"Describe the image"仅不到10个文本token）。由于LLM中自注意力机制的计算复杂度与token总数的平方成正比，大量视觉token严重制约推理效率。

现有视觉token选择方法的核心问题在于仅利用单模态信息： - 纯视觉方法（VisionZip、FastV）：通过视觉编码器内部的attention信号（如[CLS] token attention）排序，忽略了文本查询的语义引导 - 纯文本方法（SparseVLM）：利用文本到视觉的attention评分，但忽略了图像全局信息

关键观察：相同图像对不同文本查询需要不同的视觉token（如"这是什么动物"vs"背景颜色是什么"），而相同文本指令可应用于不同图像（如caption任务）。因此，单模态方法天然是次优的，需要同时利用视觉和文本信息。

方法详解¶

整体框架¶

MMTok将视觉token选择形式化为最大覆盖问题，通过子模函数优化同时覆盖文本语义和视觉全局信息：

计算文本-视觉相似度矩阵 \(M^{tv}\) 和视觉-视觉相似度矩阵 \(M^{vv}\)
联合优化多模态覆盖目标
利用贪心算法高效求解（保证\((1-1/e)\)近似比）

关键设计¶

覆盖函数定义： \(f(\mathcal{S}; M) = \frac{1}{m} \sum_{i=1}^{m} \max M_{i,\mathcal{S}}\) 即对每个目标token，取其与被选token子集中最大相似度的平均值。该函数被证明是子模函数（Proposition 1），保证贪心算法可获得\((1-1/e) \approx 63.2\%\)最优解的理论保证。
文本-视觉覆盖（T-V Coverage）：
- 相似度矩阵 \(M_{i,j}^{tv} = \mathbf{t}_i^\top \mathbf{v}_j\)，使用投影后的视觉token（与文本对齐）
- 目的：选出与文本查询语义最相关的视觉token
- 局限：文本可能模糊（如"请描述图像"），语义引导不足
视觉-视觉覆盖（V-V Coverage）：
- 相似度矩阵 \(M_{i,j}^{vv} = \mathbf{v}_i^{\prime\top} \mathbf{v}_j'\)，使用投影前的视觉特征（捕获纯视觉相似性）
- 目的：选出能代表整幅图像信息的视觉token子集
- 与T-V覆盖互补
多模态覆盖融合：
- 先用softmax进行校准：\(M_{i,j}^{tv'} = \frac{\exp(M_{i,j}^{tv}/\tau_t)}{\sum_j \exp(M_{i,j}^{tv}/\tau_t)}\)
- 联合目标：\(f(\mathcal{S}; M^{tv'}, M^{vv'}) = f(\mathcal{S}; M^{tv'}) + \alpha \cdot f(\mathcal{S}; M^{vv'})\)
- Corollary 1：两个子模函数之和仍为子模函数，贪心算法仍然有效
- 默认参数：\(\tau_t=0.02\), \(\tau_v=0.2\), \(\alpha=0.5\)
可选的Agent增强文本：
- 使用轻量级VLM（SmolVLM2-256M）生成初步回答
- 将回答token拼接到原始文本token后增强T-V覆盖的引导
- 适用于文本查询信息不足的场景

算法复杂度¶

贪心算法（Algorithm 1/2）仅包含简单的矩阵运算（加法、乘法、取max），每步从剩余候选中选择边际增益最大的token，总共选k个token。实验表明其运行时间与VisionZip等简单方法几乎相同。

实验关键数据¶

主实验（LLaVA-1.5-7B，576原始token）¶

方法	192 tokens保留率	128 tokens保留率	64 tokens保留率
FastV	89.6%	84.4%	75.6%
SparseVLM	95.5%	92.9%	86.9%
VisionZip	97.9%	96.8%	93.2%
DivPrune	98.0%	97.0%	94.8%
VisionZip🔥(微调)	98.4%	97.7%	95.0%
MMTok	98.7%	97.9%	96.5%

跨模型泛化¶

模型	配置	VisionZip	DivPrune	MMTok
LLaVA-1.5-13B	64 tokens	93.7%	95.4%	96.3%
LLaVA-NeXT-7B	Up 160	90.4%	92.4%	95.1%
LLaVA-NeXT-13B	Up 160	91.4%	92.1%	95.1%
Qwen-2.5-VL-7B	20%	94.2%	91.5%	94.6%

极端压缩（LLaVA-1.5-7B，高IC数据集）¶

token数	VisionZip	DivPrune	MMTok
16	78.3%	86.2%	88.3%
8	63.2%	76.3%	82.9%
4	58.8%	66.3%	76.7%
2	57.8%	63.5%	70.0%

在POPE上仅用4个token就保留了87.7%的原始性能！

消融实验¶

配置	64 tokens保留率	说明
T-V only（无softmax）	93.7%	仅用文本引导
V-V only（无softmax）	94.7%	仅用视觉自覆盖
T-V（softmax校准）	93.8%	校准不损性能
V-V（softmax校准）	95.7%	校准有小幅提升
MMTok（T-V + V-V）	96.6%	多模态互补显著

推理效率（LLaVA-NeXT-13B，H100 GPU）¶

方法	总推理时间	POPE时间	GPU利用率	运行时内存	平均性能
原始(2880)	15204s	1705s	86.7%	4.59GB	100%
VisionZip(160)	7551s	866s	52.4%	1.92GB	89.6%
DivPrune(160)	8186s	1060s	50.9%	1.23GB	90.5%
MMTok(160)	7768s	913s	58.0%	1.78GB	93.7%

实现1.87×加速同时在POPE上保持98.7%性能。

关键发现¶

多模态信息互补：T-V和V-V覆盖的结合比任何单模态方法好2-3%
Image Contribution（IC）指标的提出：部分数据集即使零视觉token也有很高性能（如SQA 82%、MMMU 92%），说明评估应重点关注高IC数据集
超参鲁棒性：\(\tau_t, \tau_v, \alpha\)的选择对性能影响不大，固定默认值即可
Training-free优势：无需微调即超越VisionZip🔥等微调方法
极端压缩潜力：4个token时MMTok比VisionZip高18%，说明覆盖准则在极端情况下优势更大

亮点与洞察¶

将token选择形式化为经典组合优化问题：子模函数+贪心算法的理论框架优雅且实用
投影前后特征的差异化使用：投影后特征用于跨模态对齐（T-V），投影前特征用于纯视觉相似度（V-V），体现了对VLM架构的深入理解
IC指标对evaluation的反思：指出SQA、MMMU等数据集不适合评估视觉token选择质量
Agent增强：轻量级VLM的预回答作为辅助信号，思路新颖但效果因任务而异

局限与展望¶

当前仅在LLM输入前选择token，LLM推理过程中的token动态剪枝未探索
Agent方法对多选题QA效果不佳（Agent回答如"A"对token选择无意义引导）
在Qwen-2.5-VL（已有token merging层）上的提升相对较小，说明对已优化模型的增量价值有限
贪心算法虽有理论保证，但可能存在更优的优化策略
未探索视频理解等多帧场景下的扩展

评分¶

新颖性: ⭐⭐⭐⭐ （覆盖准则+多模态融合新颖，但token pruning本身不新）
实验充分度: ⭐⭐⭐⭐⭐ （5个VLM×9个数据集×多压缩比+极端压缩+效率分析）
写作质量: ⭐⭐⭐⭐ （方法清晰，理论保证完整，实验详实）
价值: ⭐⭐⭐⭐ （实用性强，training-free+参数鲁棒，易于部署）