AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity¶
会议: ACL 2025
arXiv: 2410.02745
代码: GitHub
领域: 多模态LLM / 视觉token效率
关键词: 视觉粒度自适应, LLaVA, 视觉token减少, MoE路由, RGLF训练, 推理加速
一句话总结¶
提出 AVG-LLaVA——在 LLaVA-NeXT 基础上引入视觉粒度缩放器(多级池化获取不同粒度视觉 token)+ 视觉粒度路由器(基于图像和指令自适应选择最合适粒度),并提出 RGLF 训练范式将路由器预测与 LMM 偏好对齐。在 11 个基准上实现更好性能同时大幅减少视觉 token(如 AI2D 上减少 85.3%,推理加速 2.53×)。
背景与动机¶
高分辨率 LMM(如 LLaVA-NeXT)将图像分割为多个局部图像分别编码再拼接,导致大量视觉 token(如 672×672 图像→2880 token)。但实际上细粒度视觉信息并非总是必要——问球衣颜色只需粗粒度,认球衣号码才需细粒度。人类也是"难题仔细看,简单题扫一眼"。
核心问题¶
如何让 MLLM 根据输入图像和指令自适应选择合适的视觉粒度——既不浪费 token 又不丢失关键细节?
方法详解¶
视觉粒度缩放器¶
- 基于空间金字塔池化,堆叠 1×2 和 2×1 平均池化
- 从 24×24 原始 token 渐进获取 24×12、12×12、12×6、6×6 四级粒度
- 无训练,纯操作
视觉粒度路由器¶
- 类 MoE 结构:不同粒度视觉特征=不同专家
- 输入:拼接所有粒度的视觉 token + 过滤后的指令 token(top-k 最相关)
- 结构:Transformer 层(融合)→ MLP(逐 token 预测粒度)→ Voter(可学习加权聚合)→ softmax 选择最高概率粒度
- 选中粒度的视觉 token 送入 LLM
RGLF 训练范式¶
- 发现直接通过视觉指令微调无法有效训练路由器
- RGLF = Ranking Granularity based on LMM Feedback
- 用 LMM 在不同粒度下的表现作为反馈
- 通过排序损失对齐路由器概率与 LMM 偏好
- 无需额外标注数据
实验关键数据¶
| 基准 | 视觉 token 减少 | 推理加速 | 性能 |
|---|---|---|---|
| AI2D | 85.3% | 2.53× | 更好 |
| 其他 10 个基准 | 显著减少 | 显著加速 | 持平或更好 |
- 在 11 个基准上全面评估(通用 VQA、文本 VQA、知识 VQA 等)
- 同一基座 LLM 下,AVG-LLaVA 在减少 token 的同时性能更好——减少冗余反而有利
亮点¶
- 自适应是核心创新——不是一刀切压缩,而是按需选择粒度
- RGLF 训练范式巧妙——利用 LMM 自身反馈训练路由器,无需额外标注
- 减少冗余 + 性能提升并存——说明过多视觉 token 反而有害(信息冗余干扰推理)
- 85.3% token 减少 + 2.53× 加速——对实际部署有巨大价值
局限性 / 可改进方向¶
- 粒度是离散选择:4 级粒度可能不够精细
- 仅 LLaVA-NeXT 架构:其他 MLLM 架构的适配需验证
- 路由器增加少量计算开销:虽然远小于节省的计算
- RGLF 依赖 LMM 评估质量:弱 LMM 的反馈可能不准确
与相关工作的对比¶
- vs FastV/VTW(token 剪枝):剪枝常降低性能;AVG-LLaVA 自适应选择反而提升性能
- vs LLaVA-PruMerge(剪枝+合并):静态策略;AVG-LLaVA 按图像+指令动态选择
- vs LLaVA-M3(手动粒度控制):需人工指定粒度;AVG-LLaVA 自动选择
启发与关联¶
- "不是所有图像都需要同等细粒度"是直觉但被忽视的洞察
- RGLF 的"用下游表现反馈训练路由器"思路可推广到其他 MoE 场景
- 视觉 token 冗余是 MLLM 效率的主要瓶颈——自适应粒度是正确方向
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 自适应粒度选择+RGLF训练范式,减token同时提升性能
- 实验充分度: ⭐⭐⭐⭐⭐ 11个基准,全面验证效率和性能
- 写作质量: ⭐⭐⭐⭐ 动机直觉,架构图清晰
- 价值: ⭐⭐⭐⭐⭐ 对MLLM效率部署有直接实用价值