跳转至

AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity

会议: ACL 2025
arXiv: 2410.02745
代码: GitHub
领域: 多模态LLM / 视觉token效率
关键词: 视觉粒度自适应, LLaVA, 视觉token减少, MoE路由, RGLF训练, 推理加速

一句话总结

提出 AVG-LLaVA——在 LLaVA-NeXT 基础上引入视觉粒度缩放器(多级池化获取不同粒度视觉 token)+ 视觉粒度路由器(基于图像和指令自适应选择最合适粒度),并提出 RGLF 训练范式将路由器预测与 LMM 偏好对齐。在 11 个基准上实现更好性能同时大幅减少视觉 token(如 AI2D 上减少 85.3%,推理加速 2.53×)。

背景与动机

高分辨率 LMM(如 LLaVA-NeXT)将图像分割为多个局部图像分别编码再拼接,导致大量视觉 token(如 672×672 图像→2880 token)。但实际上细粒度视觉信息并非总是必要——问球衣颜色只需粗粒度,认球衣号码才需细粒度。人类也是"难题仔细看,简单题扫一眼"。

核心问题

如何让 MLLM 根据输入图像和指令自适应选择合适的视觉粒度——既不浪费 token 又不丢失关键细节?

方法详解

视觉粒度缩放器

  • 基于空间金字塔池化,堆叠 1×2 和 2×1 平均池化
  • 从 24×24 原始 token 渐进获取 24×12、12×12、12×6、6×6 四级粒度
  • 无训练,纯操作

视觉粒度路由器

  • 类 MoE 结构:不同粒度视觉特征=不同专家
  • 输入:拼接所有粒度的视觉 token + 过滤后的指令 token(top-k 最相关)
  • 结构:Transformer 层(融合)→ MLP(逐 token 预测粒度)→ Voter(可学习加权聚合)→ softmax 选择最高概率粒度
  • 选中粒度的视觉 token 送入 LLM

RGLF 训练范式

  • 发现直接通过视觉指令微调无法有效训练路由器
  • RGLF = Ranking Granularity based on LMM Feedback
  • 用 LMM 在不同粒度下的表现作为反馈
  • 通过排序损失对齐路由器概率与 LMM 偏好
  • 无需额外标注数据

实验关键数据

基准 视觉 token 减少 推理加速 性能
AI2D 85.3% 2.53× 更好
其他 10 个基准 显著减少 显著加速 持平或更好
  • 在 11 个基准上全面评估(通用 VQA、文本 VQA、知识 VQA 等)
  • 同一基座 LLM 下,AVG-LLaVA 在减少 token 的同时性能更好——减少冗余反而有利

亮点

  • 自适应是核心创新——不是一刀切压缩,而是按需选择粒度
  • RGLF 训练范式巧妙——利用 LMM 自身反馈训练路由器,无需额外标注
  • 减少冗余 + 性能提升并存——说明过多视觉 token 反而有害(信息冗余干扰推理)
  • 85.3% token 减少 + 2.53× 加速——对实际部署有巨大价值

局限性 / 可改进方向

  • 粒度是离散选择:4 级粒度可能不够精细
  • 仅 LLaVA-NeXT 架构:其他 MLLM 架构的适配需验证
  • 路由器增加少量计算开销:虽然远小于节省的计算
  • RGLF 依赖 LMM 评估质量:弱 LMM 的反馈可能不准确

与相关工作的对比

  • vs FastV/VTW(token 剪枝):剪枝常降低性能;AVG-LLaVA 自适应选择反而提升性能
  • vs LLaVA-PruMerge(剪枝+合并):静态策略;AVG-LLaVA 按图像+指令动态选择
  • vs LLaVA-M3(手动粒度控制):需人工指定粒度;AVG-LLaVA 自动选择

启发与关联

  • "不是所有图像都需要同等细粒度"是直觉但被忽视的洞察
  • RGLF 的"用下游表现反馈训练路由器"思路可推广到其他 MoE 场景
  • 视觉 token 冗余是 MLLM 效率的主要瓶颈——自适应粒度是正确方向

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 自适应粒度选择+RGLF训练范式,减token同时提升性能
  • 实验充分度: ⭐⭐⭐⭐⭐ 11个基准,全面验证效率和性能
  • 写作质量: ⭐⭐⭐⭐ 动机直觉,架构图清晰
  • 价值: ⭐⭐⭐⭐⭐ 对MLLM效率部署有直接实用价值