Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models¶
日期: 2026-03-16
arXiv: 2603.16001
代码: GitHub
领域: 多模态/VLM / 模型压缩
关键词: 权重剪枝, 模态不对称, 激活感知, 校准池构建, 视觉冗余
一句话总结¶
通过解耦文本/视觉通路的剪枝敏感性,发现文本通路高度敏感(必须用文本 token 校准)而视觉通路极度冗余(60% 稀疏度仅掉 0.75%),提出 ATV-Pruning 用全部文本 token + 按层自适应采样少量显著视觉 token 构建校准池,在 9 个多模态基准上超越 SOTA 剪枝方法。
研究背景与动机¶
-
领域现状: LVLM 参数量大、部署困难。权重剪枝(如 Wanda)通过激活感知的重要性评分 \(I_{ij} = |W_{ij}| \cdot \|X_j\|_2\) 实现高效后训练稀疏化。
-
现有痛点: 将 LLM 剪枝方法直接用于 LVLM 时,校准数据混合了文本和视觉 token,但不同模态在激活分布和剪枝重要性上差异巨大——t-SNE 显示两种模态激活占据不同聚类区域;文本-only 和视觉-only 校准得到的剪枝 mask IoU 分布很宽。
-
核心矛盾: 文本通路对校准源高度敏感(60% 稀疏度下,用视觉校准直接崩塌到 11.1%),视觉通路却极度冗余(60% 稀疏度下任何校准池都保持 99%+ 性能)。统一校准池稀释了对文本通路至关重要的语言信号。
-
核心 idea: 不对称构建校准池——保留全部文本 token(保护敏感的文本通路),仅按层自适应采样少量高 saliency 视觉 token(补充视觉特有参数信息)。
方法详解¶
整体框架¶
ATV-Pruning 基于 Wanda 框架,核心改进在校准池构建: - 输入:LVLM + 校准数据集 - 对每个 Transformer block:构建 \(\mathcal{S}_{cal} = \mathcal{T} \cup \mathcal{V}_{sub}\)(全部文本 + 子集视觉) - 用 \(\mathcal{S}_{cal}\) 计算激活范数 \(\|X_j\|_2\),进而得到权重重要性 \(I_{ij}\) - 按重要性剪枝到目标稀疏度
关键设计¶
-
模态解耦敏感性分析(MoT Probe):
- 做什么:定量验证文本和视觉通路对不同校准源的敏感度差异
- 核心思路:用 Mixture-of-Transformer 分析探针将共享权重复制为文本/视觉两条通路,独立施加不同校准池的剪枝 mask,测量各通路的性能变化
- 关键发现:文本通路用文本校准在 60% 稀疏度保持 84.65%,用视觉校准崩塌到 50.92%;视觉通路用任何校准都保持 99%+
-
Block-Adaptive Visual Selection:
- 做什么:在每个 Transformer block 自适应选择最有信息量的视觉 token
- 核心思路:用"视觉漂移"(visual drift)作为显著性代理——cosine distance \(s_v = 1 - \cos(X_{in,v}, X_{out,v})\),漂移大的 token 说明被该 block 强烈处理
- 预算分配:\(K = \lfloor \alpha \cdot \bar{s} \cdot n_{text} \rfloor\)——视觉活跃的 block 分配更多视觉 token 预算
- 设计动机:早期层视觉漂移小(不需要太多视觉 token),中后期层漂移大(需更多),自然实现了按层自适应
-
不对称校准池构建:
- 做什么:非等权地整合两种模态的校准信号
- 核心思路:全部文本 token(保护主导的文本通路) + TopK 显著视觉 token(补充视觉特有的参数信息)
- 与 TAMP 的区别:TAMP 在共享选择过程中混合两种模态,启发式且开销大;本方法基于模态解耦分析的理论支撑,策略更简洁
实验关键数据¶
敏感性分析 (LLaVA-NeXT, 60% sparsity)¶
| 通路 | 校准源 | MMB | SQA_img | VizWiz | 保留率 |
|---|---|---|---|---|---|
| 文本 | 文本 | 52.15 | 61.58 | 56.30 | 84.65% |
| 文本 | 视觉 | 41.58 | 11.11 | 46.11 | 50.92% |
| 文本 | 混合 | 44.76 | 35.85 | 48.41 | 64.97% |
| 视觉 | 文本 | 71.05 | 73.67 | 58.32 | 100.05% |
| 视觉 | 视觉 | 70.53 | 73.08 | 57.81 | 99.25% |
| 视觉 | 混合 | 70.88 | 73.38 | 57.85 | 99.57% |
主实验对比 (50% sparsity)¶
| 方法 | MMB | SQA | VizWiz | POPE | GQA | 平均 |
|---|---|---|---|---|---|---|
| Dense | 72.16 | 73.28 | 57.65 | 86.72 | 62.07 | - |
| Wanda | 63.75 | 65.96 | 57.32 | 84.45 | 59.48 | - |
| TAMP | 64.60 | 69.51 | 57.54 | 84.84 | 59.77 | - |
| ATV-Pruning | 67.18 | 72.64 | 58.02 | 85.47 | 60.49 | - |
亮点与洞察¶
- 模态不对称是被忽视的关键: 视觉通路的权重级冗余(区别于 token 级冗余)说明 LVLM 的视觉处理参数严重过参数化,可能因为预训练 ViT 编码器已经完成了大部分视觉抽象
- 简洁而有效: 整个方法只是改变了 Wanda 的校准 token 选择策略,无需额外权重更新或架构修改,非常实用
- Visual drift 作为 saliency proxy: 可以推广到其他需要选择"重要 token"的场景(如 token pruning、KV cache eviction)
局限性 / 可改进方向¶
- 仅在非结构化稀疏上验证,结构化剪枝(对硬件加速更友好)的不对称性是否同样成立?
- 超参数 \(\alpha\) 需要手动调节,不同模型/任务可能最优值不同
- 仅在 LLaVA 系列模型验证,对 Qwen2-VL 等其他架构的泛化性待验证
- 50% 稀疏度下性能仍有 5-7% 下降,高稀疏度场景仍需更好方案
评分¶
- 新颖性: ⭐⭐⭐⭐ 模态不对称敏感性分析是新洞察,方法本身是增量改进
- 实验充分度: ⭐⭐⭐⭐⭐ MoT 解耦实验设计精巧,9 个基准覆盖全面
- 写作质量: ⭐⭐⭐⭐⭐ 问题→分析→方法的逻辑链非常清晰
- 价值: ⭐⭐⭐⭐ 对 LVLM 剪枝实务有直接指导意义