ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking¶
日期: 2026-03-05
arXiv: 2603.05384
代码: GitHub
领域: 视频理解
关键词: omnidirectional camera, referring MOT, LVLM, 360° video, open-vocabulary tracking
一句话总结¶
定义全向指代多目标跟踪任务(ORMOT),构建 ORSet 数据集(27 场景/848 描述/3401 标注物体)和 ORTrack 三阶段框架(LVLM 检测 → 双层特征提取 → 跨帧关联),HOTA 达 9.97 相比传统 RMOT 方法提升 3 倍。
研究背景与动机¶
- 领域现状:传统 RMOT 使用有限视场相机,目标出帧后跟踪中断,需频繁重新初始化。
- 现有痛点:(1) 有限 FoV 导致目标频繁进出视野;(2) 缺乏全向(360°)场景的指代跟踪数据集;(3) 全向图像存在严重畸变和边界穿越问题。
- 核心矛盾:全向摄像保证目标持续可见,但引入了投影畸变、物体跨边界等新挑战,现有方法无法直接适用。
- 切入角度:构建专门的全向指代跟踪数据集,设计利用 LVLM 开放词汇能力的检测+跟踪框架。
方法详解¶
整体框架¶
ORTrack 三阶段:(1) 语言引导检测——LVLM(Qwen2.5-VL-7B)根据自然语言描述检测目标物体;(2) 双层裁剪特征提取——全局+局部特征融合;(3) 跨帧关联——余弦相似度+匈牙利匹配。
关键设计¶
-
ORSet 数据集:
- 27 个全向场景(基于 JRDB),17 训练 / 10 测试
- 848 个自然语言描述,3401 个标注物体
- 全向特有描述符:边界穿越、周向方向、投影感知、FoV 转换
-
LVLM 引导检测:
- 使用 Qwen2.5-VL-7B 做开放词汇物体检测:\(\{b_t^i\} = \text{LVLM}(I_t, L)\)
- 无需预定义类别,直接根据自然语言描述定位
-
双层裁剪特征:
- 全局上下文裁剪:\(I_t^{i,\text{global}} = \text{Crop}(I_t, 1.2 \cdot b_t^i)\)
- 细粒度目标裁剪:\(I_t^{i,\text{local}} = \text{Crop}(I_t, b_t^i)\)
- 融合:\(\mathbf{f}_t^i = \mathbf{f}_{\text{local}}^i + 0.5 \cdot \mathbf{f}_{\text{global}}^i\)
- 设计动机:全向图像中目标小(84.7% 是小目标),需要上下文辅助
实验关键数据¶
主实验(ORSet 零样本)¶
| 方法 | HOTA | DetA | AssA | LocA |
|---|---|---|---|---|
| TransRMOT (CVPR2023) | 2.41 | 1.40 | 4.24 | - |
| TempRMOT | 2.00 | - | - | - |
| ORTrack | 9.97 | 6.37 | 16.15 | 79.68 |
消融实验¶
| 配置 | HOTA |
|---|---|
| ORTrack (Qwen2.5-VL-7B) | 9.97 |
| ORTrack (OC-SORT 关联) | 5.05 |
| GroundingDINO-L | <2.0 |
| CLIP 特征编码 | 9.5 (更快) |
关键发现¶
- ORTrack 比传统 RMOT 方法高 3 倍+ HOTA,证明 LVLM 在全向场景的有效性
- 负例准确率 78.35%(vs GroundingDINO 2-7%),说明 LVLM 对不相关目标的拒绝能力强
- 小目标占 84.7%,是全向 RMOT 的核心挑战
- LVLM 特征编码 vs CLIP:LVLM 质量更高但 CLIP 速度更快
亮点与洞察¶
- 首个全向 RMOT 任务定义和数据集:填补了 360° 视频理解中指代跟踪的空白
- LVLM 作为检测器:零样本开放词汇检测,无需针对特定场景训练
- 全向特有描述符:边界穿越等描述符针对全向图像的独特挑战
局限性 / 可改进方向¶
- 仅 27 个场景,数据规模有限
- 绝对 HOTA 值仍然较低(9.97),小目标检测是瓶颈
- LVLM 推理速度慢(FPS 0.446),实时应用困难
- 未探索端到端的全向跟踪模型
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个全向 RMOT 任务和数据集
- 实验充分度: ⭐⭐⭐ 规模偏小但消融合理
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰
- 价值: ⭐⭐⭐⭐ 为 360° 视频理解开辟新方向