Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models¶
会议: AAAI 2026
arXiv: 2501.05179
代码: https://github.com/xuyang-liu16/GlobalCom2
领域: 多模态VLM / 模型压缩
关键词: Token压缩, 高分辨率VLM, 动态裁剪, 即插即用加速, 全局-局部引导
一句话总结¶
提出GlobalCom²,一个即插即用、无需训练的token压缩框架,专为动态裁剪(dynamic cropping)结构的高分辨率VLM设计:利用全局缩略图(thumbnail)作为"指挥官"引导局部裁剪区域(crop)的差异化压缩,在压缩90%视觉token的同时保持>90%原始性能。
背景与动机¶
高分辨率LVLM(如LLaVA-NeXT、InternVL3)普遍采用动态裁剪策略:将高分辨率图像拆解为一张全局缩略图+多张局部裁剪图,分别用ViT编码后拼接。这确实提升了细粒度理解能力,但代价是视觉token数量暴增(LLaVA-NeXT为5×576,LLaVA-OV可达10×729),导致LLM推理的二次复杂度成为瓶颈。
现有token压缩方法(FastV、SparseVLM、PruMerge等)主要为单视图(single-view)VLM设计,直接应用于动态裁剪的HR-LVLM时存在三个关键问题: 1. 忽略全局上下文:不利用缩略图的全局信息来评估各crop的重要性 2. 信息丰富度中差异不敏感:不同crop的语义密度差异巨大(如上半区有球员,下半区只有草地),但现有方法一视同仁地均匀压缩 3. 位置偏差(positional bias):FastV等基于LLM注意力的方法会系统性地给后面位置的crop分配更多token,与实际内容重要性无关——在极端压缩下甚至导致严重的多模态幻觉(POPE掉14.8分)
核心问题¶
如何在动态裁剪的层级化视觉结构中,实现内容感知的差异化token压缩? 核心挑战在于:缩略图和crop扮演不同角色(前者提供整体语境、后者提供细节),不同crop信息密度差异显著,现有方法要么不区分要么因位置偏差反而压缩错了区域。
方法详解¶
整体框架¶
GlobalCom²的设计理念是"全局到局部"(global-to-local)的层级压缩,灵感来自人类视觉的"先抓大意、再看细节"过程。整个框架在ViT编码后、送入LLM前执行,是一个vision encoding阶段的即插即用模块,由两条路径组成:
- 蓝色路径(缩略图压缩):基于[CLS]注意力分数对thumbnail token做TopK保留
- 黄色路径(crop压缩):全局引导的两阶段crop压缩
- (a) 自适应压缩调整:根据每个crop在全局视角下的信息丰富度,动态分配不同的保留比例
- (b) 综合token评估:结合全局和局部两个视角评估每个token的重要性,执行TopK保留
关键设计¶
-
缩略图压缩(Thumbnail Compression):利用ViT最后一层[CLS] token与所有patch token的注意力分数作为重要性分数\(s_i^G\),保留Top-\(k\)(\(k=R \times N\))个token。这一步比较常规,关键在于缩略图的注意力分布会被后续复用来引导crop压缩。
-
自适应压缩调整(Adaptive Compression Adjustment):这是GlobalCom²的核心创新。将每个crop对应到缩略图上的区域,累加该区域内的[CLS]注意力分数得到crop级别的信息丰富度分数\(s_j^G = \sum_{i \in \text{crop}_j} s_i^G\)。然后通过softmax归一化(温度\(\tau=10\))得到相对重要性权重\(\sigma_j\),每个crop的保留比例调整为: $\(r_j = R \times (1 + \sigma_j - \frac{1}{n})\)$ 这确保了信息丰富的crop保留更多token,冗余crop被更激进地压缩,且所有crop的总token数仍满足预设比例\(R\)。
-
综合token评估(Holistic Token Evaluation):对每个crop中的每个token,综合两个视角的重要性分数:
- 局部分数 \(s_{j,i}^L\):crop内部[CLS]与patch的注意力分数,捕捉局部显著性
- 全局分数 \(\hat{s}_{j,i}^G\):将缩略图的1D注意力scores reshape为2D并双线性插值到原始分辨率,取对应crop区域作为全局重要性
-
综合分数:\(s_{j,i} = \alpha \cdot \hat{s}_{j,i}^G + (1-\alpha) \cdot s_{j,i}^L\)(\(\alpha=0.5\))
-
无[CLS]模型适配(针对SigLIP等):对于LLaVA-OneVision使用的SigLIP(无[CLS] token),提出用负余弦相似度替代:计算所有token的全局均值向量\(\mathbf{g}\),与全局均值相似度低的token信息独特性更强(\(s_i = -\cos(\mathbf{x}_i, \mathbf{g})\))。实验验证其效果接近[CLS]方案。
-
视频理解扩展:将"全局缩略图→局部crop"的逻辑类比为"全局视频表示→各帧",通过全局平均池化得到全局表示,按帧自适应分配压缩强度。
损失函数 / 训练策略¶
不涉及训练。整体方法是training-free的即插即用方案,只有两个超参数:温度\(\tau=10\)(控制crop间分配的锐度)和全局-局部混合系数\(\alpha=0.5\)。实验表明对这两个参数不敏感。
实验关键数据¶
LLaVA-NeXT-7B 主结果(Table 1):
| 保留比例 | 方法 | GQA | VQAT | POPE | MME | MM-Vet | 均分(%) |
|---|---|---|---|---|---|---|---|
| 100% | 原始 | 64.2 | 64.9 | 86.5 | 1519.0 | 43.9 | 100.0% |
| 50% | FastV | 61.8 | 59.6 | 85.5 | 1490.3 | 37.6 | 95.5% |
| 50% | GlobalCom² | 63.9 | 62.3 | 88.1 | 1552.9 | 40.4 | 98.5% |
| 25% | SparseVLM | 59.9 | 58.3 | 85.0 | 1465.9 | 38.5 | 94.6% |
| 25% | GlobalCom² | 61.5 | 60.9 | 87.6 | 1493.5 | 40.7 | 96.7% |
| 10% | FastV | 55.9 | 55.7 | 71.7 | 1282.9 | 27.2 | 85.4% |
| 10% | FasterVLM | 56.9 | 56.5 | 83.6 | 1359.2 | 35.0 | 89.9% |
| 10% | GlobalCom² | 57.1 | 58.4 | 83.8 | 1365.5 | 36.4 | 91.6% |
LLaVA-OneVision(Figure 6):R=10%时保持90.5%性能,仅消耗35.4%原始GPU内存。
效率分析(Table 4,R=10%):
| 方法 | TFLOPs | Memory | Throughput | 性能 |
|---|---|---|---|---|
| 原始 | 41.7 | 23.0GB | 3.8 samples/s | 100% |
| SparseVLM | 5.4(↓87%) | 24.2(↑5.2%) | 5.9(1.6×) | 85.7% |
| FasterVLM | 3.8(↓91%) | 13.6(↓40%) | 6.7(1.8×) | 89.5% |
| GlobalCom² | 3.8(↓91%) | 13.9(↓40%) | 6.7(1.8×) | 90.8% |
注意SparseVLM由于需要显式注意力矩阵,不兼容FlashAttention,内存反而上升。
与question-aware方法组合(R=10%): - +FastV → 均分提升5.3%,POPE提升8.2 - +SparseVLM → 均分提升5.2%,POPE提升4.5
消融实验要点¶
- 自适应压缩调整策略(Table 2):Softmax(sum) > Softmax(max) > n_top-k > Uniform,最优策略比均匀压缩提升1.4%均分。说明基于crop整体信息量的分配优于只看最强token。
- token评估来源(Table 3):Global+Local(96.7%) > Local only(95.6%) > Global only(94.7%)。单独用局部分数在细粒度任务(VQAT, POPE)好,单独用全局分数在通用感知(MME, SQA)好,两者互补。
- 无[CLS]替代方案(Table 5):\(s_i^{sim}\)(负余弦相似度)效果接近\(s_i^{[CLS]}\)(95.8% vs 96.4%),远优于负patch注意力\(s_i^{attn}\)(93.2%)。
- 超参数鲁棒性(Figure 10):\(\tau \in [5, 20]\)和\(\alpha \in [0.3, 0.7]\)范围内表现稳定。
亮点¶
- "全局到局部"的压缩哲学:这是一个非常直觉的设计——先看全局再决定局部压缩力度,模拟人类视觉的从粗到精。简单有效,insight清晰。
- 诊断了位置偏差bug:系统性揭示了FastV等方法在HR-LVLM上的positional bias问题,无论crop输入顺序如何(正序/倒序),后面位置的token总是获得更高注意力分数。这一发现本身就很有价值。
- 真正的即插即用:在ViT编码后、LLM前操作,不需要修改模型结构,不需要训练,兼容FlashAttention——实用性极强。
- 扩展性好:在无[CLS]模型和视频理解上都展示了适配方案,通用性较强。
- 极端压缩下优势突出:R=10%时相比其他方法优势最大(比第二名高1.7%均分),在别人"崩溃"的场景下保持鲁棒。
局限性 / 可改进方向¶
- 仅限vision encoding阶段压缩:虽然这保证了FlashAttention兼容性,但也意味着无法利用text query信息做question-aware的压缩。作者通过组合实验(+FastV/SparseVLM)缓解了这一限制,但两阶段并行还有优化空间。
- 超参数依赖:\(\tau\)和\(\alpha\)虽然不太敏感,但对不同模型/任务的最优值可能不同,且\(\alpha=0.5\)的等权混合显得粗糙——可以学一个task-adaptive的\(\alpha\)。
- 仅评估了LLaVA系列:没有在InternVL、Qwen2-VL等更多主流HR-LVLM上系统评测(Qwen2-VL仅在视频任务做了),普适性有待验证。
- crop粒度的自适应偏粗:自适应调整是在crop级别而非更细粒度(如sub-region级别),当单个crop内部信息密度差异大时(如crop左半有文字、右半是背景),无法做进一步差异化。
- 没有与token merging方法对比或结合:与ToMe等merging策略的交互未探讨,直接丢弃不重要token可能损失信息,合并是更soft的策略。
- 全局均值替代[CLS]的理论基础薄弱:\(s_i = -\cos(\mathbf{x}_i, \mathbf{g})\)虽然实验有效,但缺乏理论解释——为什么偏离均值就等于信息丰富?这和信息瓶颈理论可能有更深的联系。
与相关工作的对比¶
| 方法 | 压缩阶段 | 感知dynamic cropping | 训练 | FlashAttn兼容 | R=10%性能 |
|---|---|---|---|---|---|
| FastV (ECCV'24) | LLM pre-filling | ✗ | Free | ✗ | 85.4% |
| SparseVLM (ICML'25) | LLM pre-filling | ✗ | Free | ✗ | 86.1% |
| FasterVLM (2024.12) | Vision encoding | ✗ | Free | ✓ | 89.9% |
| PruMerge (ICCV'25) | Vision encoding | ✗ | Free | ✓ | 80.6% |
| GlobalCom² (AAAI'26) | Vision encoding | ✓ | Free | ✓ | 91.6% |
与FasterVLM对比最为典型:两者都在vision encoding阶段用[CLS]注意力,但FasterVLM均匀压缩所有crop,GlobalCom²引入全局引导的差异化压缩,在R=10%下高出1.7%均分。在LLaVA-NeXT-13B上,从R=25%到R=10%时,FasterVLM的MMB下降5.9而GlobalCom²仅下降2.9,退化鲁棒性显著更好。
与FastV/SparseVLM的本质区别在于压缩阶段和位置偏差问题——后两者在LLM内部用注意力评估token重要性,导致位置偏差和FlashAttention不兼容。
启发与关联¶
与ideas/目录的关联:
-
Cross-Layer Token Budget Allocation:该idea关注跨层的token预算分配,而GlobalCom²关注跨crop的预算分配。两者高度互补——GlobalCom²的自适应调整可以作为"层间"分配策略的"层内"子模块。具体组合方案:在每一层使用GlobalCom²的crop-level budgeting,同时跨层使用learned budget allocation,形成"层间+crop间"的双重自适应。
-
Task-aware Token Compression:GlobalCom²的全局-局部混合系数\(\alpha\)是固定的,而该idea提出多目标token重要性评分。可以将\(\alpha\)替换为task-adaptive的混合机制——理解任务增大全局权重、检测/grounding任务增大局部权重。
-
Adaptive Multi-Granularity KV Compress:GlobalCom²在token维度压缩,该idea在KV cache维度压缩。两者可以级联——先用GlobalCom²在vision encoding阶段减少token数,再用KV cache压缩进一步减少内存占用。
新启发: - GlobalCom²的"负余弦相似度"方案(\(s_i = -\cos(\mathbf{x}_i, \mathbf{g})\))本质上是在衡量token的信息独特性/不可替代性。这和信息瓶颈理论中的"信息量=编码到目标的互信息"有关联——可以考虑用信息瓶颈框架严格化这个直觉,为ideas/中的IB-based token compression提供理论支撑。 - 位置偏差的发现提示:任何在LLM内部做question-aware压缩的方法都可能受此影响,应该在评估时加入"crop顺序对照实验"作为标准sanity check。
评分¶
- 新颖性: ⭐⭐⭐⭐ 全局引导局部的分层压缩思路清晰且创新,但[CLS]注意力作为importance的使用并非新颖(FasterVLM已有);核心贡献在于"为HR-LVLM量身定制"的系统化设计
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型(7B/13B/0.5B)、多比例(75%/50%/25%/10%)、消融完善(策略/分数来源/超参数/组合性/视频/效率),可视化也做得很好
- 写作质量: ⭐⭐⭐⭐ 分析部分(Section 3)做得很扎实,先观察再设计的叙事逻辑清楚;发现positional bias这个bug的分析很有说服力
- 价值: ⭐⭐⭐⭐ 实用价值高——training-free、plug-and-play、兼容FlashAttention,工业界可直接用;学术上为HR-LVLM的token压缩开辟了"结构感知"的新方向