跳转至

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding

日期: 2026-03-20
arXiv: 2503.21782
代码: 无
领域: 视频理解 / LLM效率
关键词: mobile deployment, video understanding, dual encoder, efficient inference, edge computing

一句话总结

设计 Mobile-VideoGPT,双编码器架构(CLIP-B/16 空间特征 + VideoMamba-M 时序特征)+ 高效 token 投射器 + Qwen-2.5 0.5B SLM,仅 0.5B 参数/1GB 模型/3GB 显存,在 Jetson Orin Nano 上 7.3 tokens/sec,ActivityNet-QA 上 51.6%(超 LLaVA-OneVision-0.5B)。

研究背景与动机

  1. 领域现状: 视频 LLM(如 LLaVA-OneVision、InternVL)在视频理解上表现出色,但数十亿参数和高推理延迟使其无法在边缘设备上部署。

  2. 现有痛点: (a) 现有小模型(0.5-2B)主要继承大模型架构缩小参数,未针对视频的时空特性优化;(b) 视频帧冗余度高,所有帧等权处理浪费计算;(c) 时序建模能力弱——如 LLaVA-Mini 在运动方向判断上仅 31%。

  3. 核心 idea: 双编码器分别处理空间和时序信息 + 注意力关键帧选择减半帧数 + 极小语言模型(0.5B)。

方法详解

关键设计

  1. 双编码器架构:

    • CLIP-B/16: 提取每帧的空间语义特征
    • VideoMamba-M: 专门的时序编码器,捕获跨帧运动和时间依赖
    • 两路特征互补:空间编码器提供"是什么",时序编码器提供"怎么动"
  2. 高效 Token 投射器:

    • FFN + 自适应池化 + 位置编码
    • 将双编码器输出压缩到 LLM 可处理的 token 数量
  3. 注意力关键帧选择:

    • 从 T=16 帧中选择 K=8 关键帧(减半)
    • 用注意力分数自动选择信息量最大的帧
    • 去除冗余帧(如静止场景中的重复帧)

实验关键数据

主实验

模型 参数 ActivityNet MVBench 速度(tok/s)
LLaVA-Mini-8B 8B 52.3 44.5 4.6
LLaVA-OV-0.5B 0.5B 50.5 ~50 22.7
Mobile-VideoGPT-0.5B 0.5B 51.6 53.5 45.9
Mobile-VideoGPT-1.5B 1.5B 54.4 - -

边缘部署

硬件 速度 显存
Jetson Orin Nano 7.3 tok/s 3GB
RTX A6000 45.9 tok/s -

关键发现

  • 2× 快于 LLaVA-OV-0.5B(45.9 vs 22.7),9× 快于 LLaVA-Mini-8B(vs 4.6)
  • 运动方向判断 59.0% vs LLaVA-Mini 31.0%——VideoMamba 时序编码器的贡献直接
  • 40% 更少参数的情况下在多个 benchmark 上超越同级别模型
  • 224×224 分辨率限制了细粒度视觉任务的表现

亮点与洞察

  • 双编码器分离空间/时序是核心设计:证明了小模型也能有强时序理解——关键在于架构,不在参数量
  • 关键帧选择的 ROI 很高:减半帧数却不损失性能
  • 真正实现了边缘设备可用的视频理解——3GB 显存 + 7.3 tok/s 足够实时应用

  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力

  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升

局限性 / 可改进方向

  • 224×224 分辨率太低,细粒度视觉任务(如文字识别、小物体检测)受限
  • 仅 16 帧采样,长视频理解能力有限
  • VideoMamba 引入额外参数和推理开销,在计算极度受限时可能需要更轻量的时序编码
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入

评分

  • 新颖性: ⭐⭐⭐ 架构组合较直接,但边缘部署的工程价值高
  • 实验充分度: ⭐⭐⭐⭐ 6 个 benchmark + 边缘设备实测
  • 价值: ⭐⭐⭐⭐ 为视频理解的边缘部署提供了实用方案