LLMC+: Benchmarking Vision-Language Model Compression with a Plug-and-play Toolkit¶

会议: AAAI 2026
arXiv: 2508.09981
代码: GitHub
领域: 多模态VLM / 模型压缩
关键词: 视觉语言模型, 模型压缩, token裁剪, 量化, 基准测试

一句话总结¶

本文提出 LLMC+，一个全面的视觉语言模型（VLM）压缩基准和即插即用工具包，支持 5 个代表性 VLM 家族的 20+ 种压缩算法，系统研究了 token 级和模型级压缩的独立及联合效果，揭示了三大关键发现。

研究背景与动机¶

领域现状：大型视觉语言模型（VLM，如 LLaVA、InternVL、Qwen-VL）展现了强大的多模态理解能力，但其计算和内存需求巨大——超长的视觉 token 序列和巨量参数是两大瓶颈。近期出现了多种免训练压缩方法，包括 token 裁剪（减少视觉 token 数量）和模型量化（降低参数精度）。

现有痛点：（1）现有方法未将技术解耦为可比较的模块，导致空间冗余和时间冗余的方法无法公平对比；（2）评估局限于简单的单轮任务，无法反映多轮对话等真实场景的表现；（3）各种压缩技术独立使用，未探索联合压缩的潜力。

核心矛盾：缺乏统一的评估框架导致压缩方法之间"苹果比橘子"，难以给出可靠的方法选择建议。

本文目标：构建统一的 VLM 压缩基准，支持公平评估和系统研究。

切入角度：开发模块化工具包，将各种压缩方法解耦为可组合的模块。

核心 idea：通过统一的基准和工具包实现 VLM 压缩方法的公平对比和联合优化。

方法详解¶

整体框架¶

LLMC+ 包含：（1）统一接口——所有压缩方法统一为可组合的模块；（2）全面评估——涵盖单轮/多轮、视觉问答/推理/细节描述等多种任务；（3）联合压缩——探索 token 裁剪 + 模型量化的组合。

关键设计¶

模块化压缩框架:
- 功能：使不同压缩方法在统一接口下可比较和可组合。
- 核心思路：将压缩方法分为两大类——token 级压缩（视觉 token pruning/merging）和模型级压缩（权重量化/剪枝）。每类内部解耦为可替换的模块，如 token 重要性评估模块、token 裁剪策略模块等。
- 设计动机：过去不同方法使用不同的评估设置和数据集，导致论文间的性能数值不可比。统一框架消除了评估偏差。
多维度评估基准:
- 功能：全面评估压缩后VLM的能力保持。
- 核心思路：评估覆盖：单轮视觉问答、多轮对话、细节敏感任务（如OCR、fine-grained recognition）、视觉推理。特别加入了多轮对话测试——现有基准几乎不测这个维度，但它对实际应用至关重要。
- 设计动机：单轮VQA可能掩盖信息损失——模型即使丢失了一些视觉细节仍能猜对答案，但在需要持续理解的多轮对话中就会暴露问题。
联合压缩探索:
- 功能：研究 token+模型双重压缩的可行性。
- 核心思路：先进行 token 裁剪减少序列长度，再进行模型量化降低参数精度。测试不同压缩级别的组合，找到极致压缩下性能损失最小的配置。
- 设计动机：单一压缩维度的收益有限（如4-bit量化已接近极限），联合压缩可以在多个维度同时降低成本。

损失函数 / 训练策略¶

所有压缩方法均为免训练（training-free），使用少量校准数据即可完成。评估使用标准的VLM推理pipeline。

实验关键数据¶

主实验¶

覆盖5个VLM家族，20+种压缩算法。

发现	详情	说明
发现1	空间和时间冗余需要不同技术策略	Token级和模型级互相不可替代
发现2	Token裁剪在多轮对话和细节任务上显著退化	单轮评估的假象
发现3	Token+模型联合压缩可实现极致压缩且性能损失最小	1+1>2的效果

消融实验¶

压缩方式	压缩比	性能保持	说明
仅token裁剪50%	中等	单轮好/多轮差	信息累积损失
仅4-bit量化	中等	均匀下降	不依赖任务类型
Token50%+4-bit量化	极致	接近单一压缩	联合效果好

关键发现¶

Token 裁剪方法在多轮对话中的退化比预期严重得多——这暴露了现有评估的盲点。
联合压缩的关键是两种技术作用于不同的冗余维度——token裁剪减少空间冗余，量化减少精度冗余，两者几乎正交。
工具包的价值在于促进了公平比较，揭示了之前论文中被掩盖的方法优劣。

亮点与洞察¶

系统性基准构建对VLM压缩领域有长期价值——后续研究可以直接在此基准上公平对比。
多轮对话评估的加入是重要贡献——揭示了token裁剪的隐含风险。
联合压缩的发现有直接的部署指导意义。

局限与展望¶

5个VLM家族可能不覆盖所有架构类型。
免训练压缩的上限可能低于量化感知训练方法。
可以扩展到视频理解VLM的压缩。

评分¶

新颖性: ⭐⭐⭐⭐ 系统性基准和联合压缩发现新颖
实验充分度: ⭐⭐⭐⭐⭐ 5个VLM家族+20+算法+多维度评估
写作质量: ⭐⭐⭐⭐ 发现总结清晰有洞察
价值: ⭐⭐⭐⭐⭐ 对VLM压缩领域有基础设施级贡献