Elysium: Exploring Object-Level Perception in Videos via MLLM¶
会议: ECCV 2024
arXiv: 2403.16558
代码: https://github.com/Hon-Wong/Elysium (有)
领域: 多模态VLM
关键词: MLLM, 视频目标跟踪, 目标级感知, Token压缩, 大规模视频数据集
一句话总结¶
提出Elysium,首个端到端可训练的多模态大语言模型系统化处理视频目标级任务(如目标跟踪),构建了百万级ElysiumTrack-1M视频数据集支持SOT/RSOT/Video-REG三类任务,并设计T-Selector token压缩网络在保持性能的同时大幅减少视觉token消耗。
研究背景与动机¶
- 领域现状:MLLM在静态图像的目标级任务(目标检测、图像grounding)上已展现出色能力,但在视频目标级任务(如目标跟踪)上研究严重不足。
- 两大核心挑战:
- 挑战一:训练数据稀缺:现有跟踪数据集规模太小(如LaSOT仅1.4K轨迹),无法支撑MLLM所需的大规模预训练
- 挑战二:计算负担:处理多帧视频中的大量视觉token会爆满LLM的上下文窗口
- 视频任务粒度分类:
- 视频级:VideoQA、Video Caption(融合所有帧的全局信息)
- 帧级:Video Grounding、Dense Captioning(区分每帧)
- 目标级:SOT、MOT、VOS(需要跨帧定位和追踪特定物体)——粒度最细、最具挑战
- 核心idea:构建百万级数据集 + 设计token压缩网络 → 让MLLM具备视频目标级感知能力
方法详解¶
整体框架¶
Elysium = CLIP-ViT-L(视觉编码器)+ T-Selector(token压缩器)+ Vicuna(LLM)。每帧图像经CLIP编码后,T-Selector压缩视觉token数量(按α比例保留最重要的),压缩后token附带时间戳送入LLM。任务以指令格式表达,输出以文本形式给出坐标。
关键设计¶
-
ElysiumTrack-1M数据集构建:
- 来源:WebVid-10M视频数据集
- 构建流程两步走:
- Step 1:用spaCy解析视频caption为名词短语→Grounding DINO在首帧/中帧/末帧定位→保留置信度>0.6的pairs
- Step 2:用MixFormer从首帧bbox开始跟踪→保留全帧置信度>0.8的轨迹→Kalman Filter过滤异常漂移→IoU验证(中帧和末帧IoU>0.3)
- 最终规模:127万条名词-轨迹对,每条含物体描述
- 比现有最大跟踪数据集TrackingNet(3万轨迹)大40倍+
-
RSOT和Video-REG新任务定义:
- RSOT(Referring Single Object Tracking):仅通过语言描述定位和跟踪视频中的特定物体(不用初始bbox)
- Video-REG(Video Referring Expression Generation):给定物体坐标,生成描述该物体的自然语言(需跨帧时间感知——当前帧物体可能被遮挡但其他帧可识别)
-
T-Selector token压缩网络:
- 动机:视频包含大量冗余信息,需要压缩视觉token以处理更多帧
- 核心思路:Gating MLP + Softmax → KeepTopK选择分数最高的k=αN个token → MLP变换到LLM维度
- 与传统cross-attention或concatenation融合不同,T-Selector在空间维度做选择性保留而非融合
- 关键:空间维度融合会导致性能急剧下降,而选择性保留可以很好地平衡token数量和性能
- 压缩比α可调(0到1之间)
-
输入输出格式设计:
- 每帧视觉token附带时间戳(区分帧)
- 坐标表示:[x1,y1,x2,y2]范围[0,100),用逗号分隔无空格
- 比Shikra的浮点坐标格式(28 tokens/坐标)节省一半token(13 tokens/坐标)
损失函数 / 训练策略¶
- 两阶段训练:
- Stage 1 预训练:仅图像数据训练,先冻结ViT+LLM仅训练T-Selector(LLaVA-558K),再全参数端到端训练(混合图像数据,32 GPU,30K步)
- Stage 2 微调:高质量图像数据+视频数据(VideoChat+ElysiumTrack-1M),32 GPU,22K步
- 视频训练:随机采样2~8帧(间隔1~60),最后2K步扩展到32帧
- 推理策略:
- 视频>32帧时分clip处理,每clip 8帧,前后clip重叠1帧以传递跟踪状态
- 这模拟了传统SOT中的模板更新策略
实验关键数据¶
主实验¶
| 任务 | 模型 | 分辨率 | Token数/图 | 关键指标 |
|---|---|---|---|---|
| RefCOCO val | Shikra-7B | 224 | 256 | 87.01 |
| RefCOCO val | Shikra-13B | 224 | 256 | 87.83 |
| RefCOCO val | MiniGPT-v2* | 448 | 256 | 88.69 |
| RefCOCO val | Elysium | 336 | 可调 | 竞争性 |
| 任务 | 数据集 | 指标 |
|---|---|---|
| SOT | ElysiumTrack-1M | Success/Precision |
| RSOT | ElysiumTrack-1M | Success/Precision |
| Video-REG | ElysiumTrack-1M | Meteor/CIDEr |
消融实验¶
| 组件 | 影响 |
|---|---|
| T-Selector vs Cross-Attention | T-Selector显著更优 |
| T-Selector vs Concatenation | T-Selector更优 |
| 压缩比α(0.25/0.5/0.75/1.0) | α=0.5~0.75为最佳平衡点 |
| 有/无时间戳 | 时间戳对帧区分至关重要 |
| 帧数2~8 vs 32 | 更多帧提升跟踪上下文 |
| 坐标格式(紧凑vs Shikra式) | 紧凑格式节省~50% token |
关键发现¶
- ElysiumTrack-1M的127万轨迹是现有最大跟踪数据集的40倍+,证明了从网络视频自动构建大规模跟踪数据的可行性
- T-Selector的选择性保留优于空间融合——说明token选择比token混合更适合保留帧内空间信息
- 端到端MLLM处理目标跟踪是可行的——无需外部专家模型或手工参数调整
- RSOT任务(纯语言驱动跟踪)开辟了跟踪与语言交互的新方向
- 紧凑坐标格式大幅节省token,对多帧视频处理至关重要
亮点与洞察¶
- 开拓性工作:首次系统性地将MLLM能力扩展到视频目标级任务
- 大规模数据集:ElysiumTrack-1M的构建流水线(spaCy+GroundingDINO+MixFormer+过滤)可复用
- T-Selector设计哲学:"选择"优于"融合"——视频中不是所有空间位置都同等重要
- 新任务定义:RSOT和Video-REG填补了跟踪与语言交叉领域的空白
- 实用的token效率:紧凑坐标+T-Selector使多帧视频处理成为可能
局限性 / 可改进方向¶
- 仅实现了单目标跟踪(SOT/RSOT),多目标跟踪(MOT)和视频分割(VOS/RVOS)留作future work
- ElysiumTrack-1M基于MixFormer跟踪器生成→继承了其跟踪偏差和错误
- 分clip推理时误差可能累积
- 图像分辨率仅336×336,高分辨率下效果待验证
- 与专业跟踪器(如MixFormer本身)相比,MLLM的跟踪精度仍有差距
相关工作与启发¶
- Shikra/MiniGPT-v2:图像目标级MLLM先驱,Elysium扩展到视频
- VideoChat:视频级MLLM,但不做目标级任务
- MixFormer:高性能跟踪器,用于ElysiumTrack-1M数据构建
- 启发:MLLM的统一框架是否能在一个模型中同时处理视频理解+目标跟踪+生成任务?
评分¶
- 新颖性:⭐⭐⭐⭐⭐ (首创视频目标级MLLM + 两个新任务)
- 技术深度:⭐⭐⭐⭐ (数据集构建+T-Selector+训练策略完整)
- 实验充分性:⭐⭐⭐⭐ (多任务评估、详细消融)
- 实用价值:⭐⭐⭐⭐ (数据集和代码开源,社区价值大)
- 写作质量:⭐⭐⭐⭐ (结构清晰,任务定义明确)
相关论文¶
- [ECCV 2024] Exploring the Feature Extraction and Relation Modeling For Light-Weight Transformer Tracking
- [ECCV 2024] AMEGO: Active Memory from Long EGOcentric Videos
- [ECCV 2024] Efficient Few-Shot Action Recognition via Multi-Level Post-Reasoning
- [ECCV 2024] Goldfish: Vision-Language Understanding of Arbitrarily Long Videos
- [ECCV 2024] CrossGLG: LLM Guides One-Shot Skeleton-Based 3D Action Recognition in a Cross-Level Manner