AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity¶

会议: ACL 2025
arXiv: 2410.02745
代码: GitHub
领域: 多模态LLM / 视觉token效率
关键词: 视觉粒度自适应, LLaVA, 视觉token减少, MoE路由, RGLF训练, 推理加速

一句话总结¶

提出 AVG-LLaVA——在 LLaVA-NeXT 基础上引入视觉粒度缩放器（多级池化获取不同粒度视觉 token）+ 视觉粒度路由器（基于图像和指令自适应选择最合适粒度），并提出 RGLF 训练范式将路由器预测与 LMM 偏好对齐。在 11 个基准上实现更好性能同时大幅减少视觉 token（如 AI2D 上减少 85.3%，推理加速 2.53×）。

背景与动机¶

高分辨率 LMM（如 LLaVA-NeXT）将图像分割为多个局部图像分别编码再拼接，导致大量视觉 token（如 672×672 图像→2880 token）。但实际上细粒度视觉信息并非总是必要——问球衣颜色只需粗粒度，认球衣号码才需细粒度。人类也是"难题仔细看，简单题扫一眼"。

核心问题¶

如何让 MLLM 根据输入图像和指令自适应选择合适的视觉粒度——既不浪费 token 又不丢失关键细节？

方法详解¶

视觉粒度缩放器¶

基于空间金字塔池化，堆叠 1×2 和 2×1 平均池化
从 24×24 原始 token 渐进获取 24×12、12×12、12×6、6×6 四级粒度
无训练，纯操作

视觉粒度路由器¶

类 MoE 结构：不同粒度视觉特征=不同专家
输入：拼接所有粒度的视觉 token + 过滤后的指令 token（top-k 最相关）
结构：Transformer 层（融合）→ MLP（逐 token 预测粒度）→ Voter（可学习加权聚合）→ softmax 选择最高概率粒度
选中粒度的视觉 token 送入 LLM

RGLF 训练范式¶

发现直接通过视觉指令微调无法有效训练路由器
RGLF = Ranking Granularity based on LMM Feedback
用 LMM 在不同粒度下的表现作为反馈
通过排序损失对齐路由器概率与 LMM 偏好
无需额外标注数据

实验关键数据¶

基准	视觉 token 减少	推理加速	性能
AI2D	85.3%	2.53×	更好
其他 10 个基准	显著减少	显著加速	持平或更好

在 11 个基准上全面评估（通用 VQA、文本 VQA、知识 VQA 等）
同一基座 LLM 下，AVG-LLaVA 在减少 token 的同时性能更好——减少冗余反而有利

亮点¶

自适应是核心创新——不是一刀切压缩，而是按需选择粒度
RGLF 训练范式巧妙——利用 LMM 自身反馈训练路由器，无需额外标注
减少冗余 + 性能提升并存——说明过多视觉 token 反而有害（信息冗余干扰推理）
85.3% token 减少 + 2.53× 加速——对实际部署有巨大价值

局限性 / 可改进方向¶

粒度是离散选择：4 级粒度可能不够精细
仅 LLaVA-NeXT 架构：其他 MLLM 架构的适配需验证
路由器增加少量计算开销：虽然远小于节省的计算
RGLF 依赖 LMM 评估质量：弱 LMM 的反馈可能不准确

与相关工作的对比¶

vs FastV/VTW（token 剪枝）：剪枝常降低性能；AVG-LLaVA 自适应选择反而提升性能
vs LLaVA-PruMerge（剪枝+合并）：静态策略；AVG-LLaVA 按图像+指令动态选择
vs LLaVA-M3（手动粒度控制）：需人工指定粒度；AVG-LLaVA 自动选择

启发与关联¶

"不是所有图像都需要同等细粒度"是直觉但被忽视的洞察
RGLF 的"用下游表现反馈训练路由器"思路可推广到其他 MoE 场景
视觉 token 冗余是 MLLM 效率的主要瓶颈——自适应粒度是正确方向

评分¶

新颖性: ⭐⭐⭐⭐⭐ 自适应粒度选择+RGLF训练范式，减token同时提升性能
实验充分度: ⭐⭐⭐⭐⭐ 11个基准，全面验证效率和性能
写作质量: ⭐⭐⭐⭐ 动机直觉，架构图清晰
价值: ⭐⭐⭐⭐⭐ 对MLLM效率部署有直接实用价值