Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding¶

日期: 2026-03-20
arXiv: 2503.21782
代码: 无
领域: 视频理解 / LLM效率
关键词: mobile deployment, video understanding, dual encoder, efficient inference, edge computing

一句话总结¶

设计 Mobile-VideoGPT，双编码器架构（CLIP-B/16 空间特征 + VideoMamba-M 时序特征）+ 高效 token 投射器 + Qwen-2.5 0.5B SLM，仅 0.5B 参数/1GB 模型/3GB 显存，在 Jetson Orin Nano 上 7.3 tokens/sec，ActivityNet-QA 上 51.6%（超 LLaVA-OneVision-0.5B）。

研究背景与动机¶

领域现状: 视频 LLM（如 LLaVA-OneVision、InternVL）在视频理解上表现出色，但数十亿参数和高推理延迟使其无法在边缘设备上部署。
现有痛点: (a) 现有小模型（0.5-2B）主要继承大模型架构缩小参数，未针对视频的时空特性优化；(b) 视频帧冗余度高，所有帧等权处理浪费计算；(c) 时序建模能力弱——如 LLaVA-Mini 在运动方向判断上仅 31%。
核心 idea: 双编码器分别处理空间和时序信息 + 注意力关键帧选择减半帧数 + 极小语言模型（0.5B）。

方法详解¶

关键设计¶

双编码器架构:
- CLIP-B/16: 提取每帧的空间语义特征
- VideoMamba-M: 专门的时序编码器，捕获跨帧运动和时间依赖
- 两路特征互补：空间编码器提供"是什么"，时序编码器提供"怎么动"
高效 Token 投射器:
- FFN + 自适应池化 + 位置编码
- 将双编码器输出压缩到 LLM 可处理的 token 数量
注意力关键帧选择:
- 从 T=16 帧中选择 K=8 关键帧（减半）
- 用注意力分数自动选择信息量最大的帧
- 去除冗余帧（如静止场景中的重复帧）

实验关键数据¶

主实验¶

模型	参数	ActivityNet	MVBench	速度(tok/s)
LLaVA-Mini-8B	8B	52.3	44.5	4.6
LLaVA-OV-0.5B	0.5B	50.5	~50	22.7
Mobile-VideoGPT-0.5B	0.5B	51.6	53.5	45.9
Mobile-VideoGPT-1.5B	1.5B	54.4	-	-

边缘部署¶

硬件	速度	显存
Jetson Orin Nano	7.3 tok/s	3GB
RTX A6000	45.9 tok/s	-

关键发现¶

2× 快于 LLaVA-OV-0.5B（45.9 vs 22.7），9× 快于 LLaVA-Mini-8B（vs 4.6）
运动方向判断 59.0% vs LLaVA-Mini 31.0%——VideoMamba 时序编码器的贡献直接
40% 更少参数的情况下在多个 benchmark 上超越同级别模型
224×224 分辨率限制了细粒度视觉任务的表现

亮点与洞察¶

双编码器分离空间/时序是核心设计：证明了小模型也能有强时序理解——关键在于架构，不在参数量
关键帧选择的 ROI 很高：减半帧数却不损失性能
真正实现了边缘设备可用的视频理解——3GB 显存 + 7.3 tok/s 足够实时应用
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升

局限性 / 可改进方向¶

224×224 分辨率太低，细粒度视觉任务（如文字识别、小物体检测）受限
仅 16 帧采样，长视频理解能力有限
VideoMamba 引入额外参数和推理开销，在计算极度受限时可能需要更轻量的时序编码
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐ 架构组合较直接，但边缘部署的工程价值高
实验充分度: ⭐⭐⭐⭐ 6 个 benchmark + 边缘设备实测
价值: ⭐⭐⭐⭐ 为视频理解的边缘部署提供了实用方案