MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs¶
会议: ICLR 2026
arXiv: 2508.18264
代码: 无
领域: Multimodal / VLM
关键词: vision token selection, coverage maximization, submodular optimization, VLM efficiency, token pruning
一句话总结¶
提出MMTok——一种基于最大覆盖问题(Maximum Coverage Problem)的多模态视觉token选择框架,同时利用文本-视觉和视觉-视觉覆盖信息来选择最具信息量的视觉token子集,在training-free设置下显著优于单模态baseline,甚至超越需要微调的方法。
研究背景与动机¶
视觉语言模型(VLM)将图像转化为视觉token后与文本token拼接输入LLM,但视觉token数量远超文本token(如LLaVA-NeXT中单张图像可产生2,880个视觉token,而"Describe the image"仅不到10个文本token)。由于LLM中自注意力机制的计算复杂度与token总数的平方成正比,大量视觉token严重制约推理效率。
现有视觉token选择方法的核心问题在于仅利用单模态信息: - 纯视觉方法(VisionZip、FastV):通过视觉编码器内部的attention信号(如[CLS] token attention)排序,忽略了文本查询的语义引导 - 纯文本方法(SparseVLM):利用文本到视觉的attention评分,但忽略了图像全局信息
关键观察:相同图像对不同文本查询需要不同的视觉token(如"这是什么动物"vs"背景颜色是什么"),而相同文本指令可应用于不同图像(如caption任务)。因此,单模态方法天然是次优的,需要同时利用视觉和文本信息。
方法详解¶
整体框架¶
MMTok将视觉token选择形式化为最大覆盖问题,通过子模函数优化同时覆盖文本语义和视觉全局信息:
- 计算文本-视觉相似度矩阵 \(M^{tv}\) 和视觉-视觉相似度矩阵 \(M^{vv}\)
- 联合优化多模态覆盖目标
- 利用贪心算法高效求解(保证\((1-1/e)\)近似比)
关键设计¶
-
覆盖函数定义: \(f(\mathcal{S}; M) = \frac{1}{m} \sum_{i=1}^{m} \max M_{i,\mathcal{S}}\) 即对每个目标token,取其与被选token子集中最大相似度的平均值。该函数被证明是子模函数(Proposition 1),保证贪心算法可获得\((1-1/e) \approx 63.2\%\)最优解的理论保证。
-
文本-视觉覆盖(T-V Coverage):
- 相似度矩阵 \(M_{i,j}^{tv} = \mathbf{t}_i^\top \mathbf{v}_j\),使用投影后的视觉token(与文本对齐)
- 目的:选出与文本查询语义最相关的视觉token
- 局限:文本可能模糊(如"请描述图像"),语义引导不足
-
视觉-视觉覆盖(V-V Coverage):
- 相似度矩阵 \(M_{i,j}^{vv} = \mathbf{v}_i^{\prime\top} \mathbf{v}_j'\),使用投影前的视觉特征(捕获纯视觉相似性)
- 目的:选出能代表整幅图像信息的视觉token子集
- 与T-V覆盖互补
-
多模态覆盖融合:
- 先用softmax进行校准:\(M_{i,j}^{tv'} = \frac{\exp(M_{i,j}^{tv}/\tau_t)}{\sum_j \exp(M_{i,j}^{tv}/\tau_t)}\)
- 联合目标:\(f(\mathcal{S}; M^{tv'}, M^{vv'}) = f(\mathcal{S}; M^{tv'}) + \alpha \cdot f(\mathcal{S}; M^{vv'})\)
- Corollary 1:两个子模函数之和仍为子模函数,贪心算法仍然有效
- 默认参数:\(\tau_t=0.02\), \(\tau_v=0.2\), \(\alpha=0.5\)
-
可选的Agent增强文本:
- 使用轻量级VLM(SmolVLM2-256M)生成初步回答
- 将回答token拼接到原始文本token后增强T-V覆盖的引导
- 适用于文本查询信息不足的场景
算法复杂度¶
贪心算法(Algorithm 1/2)仅包含简单的矩阵运算(加法、乘法、取max),每步从剩余候选中选择边际增益最大的token,总共选k个token。实验表明其运行时间与VisionZip等简单方法几乎相同。
实验关键数据¶
主实验(LLaVA-1.5-7B,576原始token)¶
| 方法 | 192 tokens保留率 | 128 tokens保留率 | 64 tokens保留率 |
|---|---|---|---|
| FastV | 89.6% | 84.4% | 75.6% |
| SparseVLM | 95.5% | 92.9% | 86.9% |
| VisionZip | 97.9% | 96.8% | 93.2% |
| DivPrune | 98.0% | 97.0% | 94.8% |
| VisionZip🔥(微调) | 98.4% | 97.7% | 95.0% |
| MMTok | 98.7% | 97.9% | 96.5% |
跨模型泛化¶
| 模型 | 配置 | VisionZip | DivPrune | MMTok |
|---|---|---|---|---|
| LLaVA-1.5-13B | 64 tokens | 93.7% | 95.4% | 96.3% |
| LLaVA-NeXT-7B | Up 160 | 90.4% | 92.4% | 95.1% |
| LLaVA-NeXT-13B | Up 160 | 91.4% | 92.1% | 95.1% |
| Qwen-2.5-VL-7B | 20% | 94.2% | 91.5% | 94.6% |
极端压缩(LLaVA-1.5-7B,高IC数据集)¶
| token数 | VisionZip | DivPrune | MMTok |
|---|---|---|---|
| 16 | 78.3% | 86.2% | 88.3% |
| 8 | 63.2% | 76.3% | 82.9% |
| 4 | 58.8% | 66.3% | 76.7% |
| 2 | 57.8% | 63.5% | 70.0% |
在POPE上仅用4个token就保留了87.7%的原始性能!
消融实验¶
| 配置 | 64 tokens保留率 | 说明 |
|---|---|---|
| T-V only(无softmax) | 93.7% | 仅用文本引导 |
| V-V only(无softmax) | 94.7% | 仅用视觉自覆盖 |
| T-V(softmax校准) | 93.8% | 校准不损性能 |
| V-V(softmax校准) | 95.7% | 校准有小幅提升 |
| MMTok(T-V + V-V) | 96.6% | 多模态互补显著 |
推理效率(LLaVA-NeXT-13B,H100 GPU)¶
| 方法 | 总推理时间 | POPE时间 | GPU利用率 | 运行时内存 | 平均性能 |
|---|---|---|---|---|---|
| 原始(2880) | 15204s | 1705s | 86.7% | 4.59GB | 100% |
| VisionZip(160) | 7551s | 866s | 52.4% | 1.92GB | 89.6% |
| DivPrune(160) | 8186s | 1060s | 50.9% | 1.23GB | 90.5% |
| MMTok(160) | 7768s | 913s | 58.0% | 1.78GB | 93.7% |
实现1.87×加速同时在POPE上保持98.7%性能。
关键发现¶
- 多模态信息互补:T-V和V-V覆盖的结合比任何单模态方法好2-3%
- Image Contribution(IC)指标的提出:部分数据集即使零视觉token也有很高性能(如SQA 82%、MMMU 92%),说明评估应重点关注高IC数据集
- 超参鲁棒性:\(\tau_t, \tau_v, \alpha\)的选择对性能影响不大,固定默认值即可
- Training-free优势:无需微调即超越VisionZip🔥等微调方法
- 极端压缩潜力:4个token时MMTok比VisionZip高18%,说明覆盖准则在极端情况下优势更大
亮点与洞察¶
- 将token选择形式化为经典组合优化问题:子模函数+贪心算法的理论框架优雅且实用
- 投影前后特征的差异化使用:投影后特征用于跨模态对齐(T-V),投影前特征用于纯视觉相似度(V-V),体现了对VLM架构的深入理解
- IC指标对evaluation的反思:指出SQA、MMMU等数据集不适合评估视觉token选择质量
- Agent增强:轻量级VLM的预回答作为辅助信号,思路新颖但效果因任务而异
局限与展望¶
- 当前仅在LLM输入前选择token,LLM推理过程中的token动态剪枝未探索
- Agent方法对多选题QA效果不佳(Agent回答如"A"对token选择无意义引导)
- 在Qwen-2.5-VL(已有token merging层)上的提升相对较小,说明对已优化模型的增量价值有限
- 贪心算法虽有理论保证,但可能存在更优的优化策略
- 未探索视频理解等多帧场景下的扩展
相关工作与启发¶
本文将子模函数优化(经典组合优化理论)引入VLM加速场景。与VisionZip([CLS] attention排序)、FastV(层内attention剪枝)、SparseVLM(text-vision attention)、DivPrune(多样性准则)等方法相比,覆盖准则的独特之处在于其同时优化相关性和覆盖度。SmolVLM2-256M的agent使用暗示了小模型辅助大模型推理的有趣方向。
评分¶
- 新颖性: ⭐⭐⭐⭐ (覆盖准则+多模态融合新颖,但token pruning本身不新)
- 实验充分度: ⭐⭐⭐⭐⭐ (5个VLM×9个数据集×多压缩比+极端压缩+效率分析)
- 写作质量: ⭐⭐⭐⭐ (方法清晰,理论保证完整,实验详实)
- 价值: ⭐⭐⭐⭐ (实用性强,training-free+参数鲁棒,易于部署)
相关论文¶
- [ICLR 2026] Multimodal Classification via Total Correlation Maximization
- [NeurIPS 2025] SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodal LLMs
- [ICML 2025] SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference
- [CVPR 2026] DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference
- [ICCV 2025] SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference