Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding¶
日期: 2026-03-20
arXiv: 2503.21782
代码: 无
领域: 视频理解 / LLM效率
关键词: mobile deployment, video understanding, dual encoder, efficient inference, edge computing
一句话总结¶
设计 Mobile-VideoGPT,双编码器架构(CLIP-B/16 空间特征 + VideoMamba-M 时序特征)+ 高效 token 投射器 + Qwen-2.5 0.5B SLM,仅 0.5B 参数/1GB 模型/3GB 显存,在 Jetson Orin Nano 上 7.3 tokens/sec,ActivityNet-QA 上 51.6%(超 LLaVA-OneVision-0.5B)。
研究背景与动机¶
-
领域现状: 视频 LLM(如 LLaVA-OneVision、InternVL)在视频理解上表现出色,但数十亿参数和高推理延迟使其无法在边缘设备上部署。
-
现有痛点: (a) 现有小模型(0.5-2B)主要继承大模型架构缩小参数,未针对视频的时空特性优化;(b) 视频帧冗余度高,所有帧等权处理浪费计算;(c) 时序建模能力弱——如 LLaVA-Mini 在运动方向判断上仅 31%。
-
核心 idea: 双编码器分别处理空间和时序信息 + 注意力关键帧选择减半帧数 + 极小语言模型(0.5B)。
方法详解¶
关键设计¶
-
双编码器架构:
- CLIP-B/16: 提取每帧的空间语义特征
- VideoMamba-M: 专门的时序编码器,捕获跨帧运动和时间依赖
- 两路特征互补:空间编码器提供"是什么",时序编码器提供"怎么动"
-
高效 Token 投射器:
- FFN + 自适应池化 + 位置编码
- 将双编码器输出压缩到 LLM 可处理的 token 数量
-
注意力关键帧选择:
- 从 T=16 帧中选择 K=8 关键帧(减半)
- 用注意力分数自动选择信息量最大的帧
- 去除冗余帧(如静止场景中的重复帧)
实验关键数据¶
主实验¶
| 模型 | 参数 | ActivityNet | MVBench | 速度(tok/s) |
|---|---|---|---|---|
| LLaVA-Mini-8B | 8B | 52.3 | 44.5 | 4.6 |
| LLaVA-OV-0.5B | 0.5B | 50.5 | ~50 | 22.7 |
| Mobile-VideoGPT-0.5B | 0.5B | 51.6 | 53.5 | 45.9 |
| Mobile-VideoGPT-1.5B | 1.5B | 54.4 | - | - |
边缘部署¶
| 硬件 | 速度 | 显存 |
|---|---|---|
| Jetson Orin Nano | 7.3 tok/s | 3GB |
| RTX A6000 | 45.9 tok/s | - |
关键发现¶
- 2× 快于 LLaVA-OV-0.5B(45.9 vs 22.7),9× 快于 LLaVA-Mini-8B(vs 4.6)
- 运动方向判断 59.0% vs LLaVA-Mini 31.0%——VideoMamba 时序编码器的贡献直接
- 40% 更少参数的情况下在多个 benchmark 上超越同级别模型
- 224×224 分辨率限制了细粒度视觉任务的表现
亮点与洞察¶
- 双编码器分离空间/时序是核心设计:证明了小模型也能有强时序理解——关键在于架构,不在参数量
- 关键帧选择的 ROI 很高:减半帧数却不损失性能
-
真正实现了边缘设备可用的视频理解——3GB 显存 + 7.3 tok/s 足够实时应用
-
可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
- 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
局限性 / 可改进方向¶
- 224×224 分辨率太低,细粒度视觉任务(如文字识别、小物体检测)受限
- 仅 16 帧采样,长视频理解能力有限
- VideoMamba 引入额外参数和推理开销,在计算极度受限时可能需要更轻量的时序编码
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
评分¶
- 新颖性: ⭐⭐⭐ 架构组合较直接,但边缘部署的工程价值高
- 实验充分度: ⭐⭐⭐⭐ 6 个 benchmark + 边缘设备实测
- 价值: ⭐⭐⭐⭐ 为视频理解的边缘部署提供了实用方案