CoMP: Collaborative Multi-Mode Pruning for Vision-Language Models¶

会议: CVPR 2026
arXiv: 2604.02956
代码: https://github.com/Wuzimeng/CoMP.git
领域: 模型压缩
关键词: 模型剪枝, 视觉语言模型, 参数剪枝, Token剪枝, 协同压缩

一句话总结¶

CoMP 提出协同多模式剪枝框架，通过协同重要性度量（CIM）消除参数和 token 剪枝指标间的不一致性，通过多模式剪枝策略（MPS）自适应选择每阶段的最优剪枝模式，在高剪枝比例下显著优于单模式和简单联合剪枝方案。

研究背景与动机¶

VLM 基于 Transformer 架构，计算复杂度为 \(O(N^2D + ND^2)\)，其中 \(N\) 是序列长度、\(D\) 是特征维度。参数剪枝减小 \(D\)，token 剪枝减小 \(N\)，两者互补。

两个核心挑战：(1) 重要性度量不一致——参数重要性的计算依赖所有 token，但 token 剪枝会移除部分 token，导致参数重要性被不重要的 token 主导。反之，token 重要性依赖所有参数，但参数剪枝会移除部分参数，导致 token 重要性失真。(2) 剪枝模式的固定应用——渐进剪枝中每阶段固定按相同顺序剪参数和 token，但不同阶段的最优剪枝模式不同。

方法详解¶

整体框架¶

嵌套循环结构：外层循环由 MPS 周期性选择最优剪枝模式，内层循环中 CIM 计算协同的参数和 token 重要性分数，执行所选模式的剪枝。

关键设计¶

协同重要性度量 (CIM):
- 功能：消除参数和 token 重要性计算的相互干扰
- 核心思路：计算参数重要性时，引入 token 加权的输入范数——按 token 重要性对参数重要性计算加权，降低不重要 token 的干扰。计算 token 重要性时，将参数剪枝掩码传递到注意力权重矩阵，抑制已被标记为不重要的参数对 token 重要性的影响
- 设计动机：实验显示参数重要性计算中最关键的 token 与 token 重要性排名仅有 <30% 的重叠，说明两种度量严重不一致
多模式剪枝策略 (MPS):
- 功能：在渐进剪枝的每个阶段自适应选择最优剪枝模式
- 核心思路：将剪枝过程分为多个阶段，每阶段估算不同剪枝模式（视觉参数/语言参数/视觉token/语言token）的"剪枝代价"，选择代价最低的模式执行。同时融合历史代价（稳定性）和随机探索（避免局部最优）
- 设计动机：不同模式在不同阶段的最优性不同——早期可能参数剪枝更好，后期可能 token 剪枝更好。固定顺序无法适应这种变化
跨模态协同剪枝:
- 功能：同时对视觉和语言模态进行自适应剪枝
- 核心思路：CIM 和 MPS 分别应用于视觉编码器和语言模型，不同模态的剪枝比例由 MPS 自适应分配。这允许视觉和语言部分以不同速率被压缩
- 设计动机：视觉和语言部分的冗余程度不同，均匀剪枝不是最优的

损失函数 / 训练策略¶

基于重要性得分的结构化剪枝，不需要重训练。剪枝代价基于模型在验证集上的性能变化估算。

实验关键数据¶

主实验¶

方法	NLVR2 (50%剪枝)	NLVR2 (70%剪枝)	VQA	图文检索
参数剪枝 only	中	差	中	中
Token剪枝 only	中	差	中	中
简单联合	中	差	中	中
CoMP	最优	显著优于	最优	最优

在高剪枝比例（70%+）下优势尤为显著。

消融实验¶

配置	高剪枝比例性能	说明
无 CIM（独立度量）	明显下降	度量不一致导致错误剪枝
无 MPS（固定模式）	下降	非最优模式顺序
无随机探索	略下降	陷入局部最优
完整 CoMP	最优	所有组件必要

关键发现¶

CIM 的贡献在高剪枝比例下更加明显——低剪枝比例时度量不一致的影响较小
MPS 的自适应模式选择避免了人工调参——不同任务/模型的最优策略不同
视觉和语言部分的最优剪枝比例确实不同，均匀剪枝是次优的

亮点与洞察¶

度量不一致的发现：参数和 token 重要性度量间的干扰之前被忽视，CIM 的协同设计优雅地解决了这个问题
自适应模式选择：借鉴多臂老虎机的思路（代价估计+探索），在剪枝中实现了自动化的策略选择
高剪枝比例优势：在实际部署最需要的高压缩率场景下优势最大

局限与展望¶

MPS 的模式选择增加了剪枝过程的计算开销
当前仅验证在 BLIP 系列模型上，对 LLaVA 等架构的适用性需进一步测试
Token 剪枝在推理时的动态性需要专用的推理优化
未来可探索与量化的联合压缩

评分¶

新颖性: ⭐⭐⭐⭐ 度量不一致问题的发现和CIM设计有新意
实验充分度: ⭐⭐⭐⭐ 多任务多剪枝比例全面测试
写作质量: ⭐⭐⭐⭐ 问题分析清楚，图示直观
价值: ⭐⭐⭐⭐ 对VLM部署有直接实用价值