跳转至

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

日期: 2026-03-05
arXiv: 2603.05384
代码: GitHub
领域: 视频理解
关键词: omnidirectional camera, referring MOT, LVLM, 360° video, open-vocabulary tracking

一句话总结

定义全向指代多目标跟踪任务(ORMOT),构建 ORSet 数据集(27 场景/848 描述/3401 标注物体)和 ORTrack 三阶段框架(LVLM 检测 → 双层特征提取 → 跨帧关联),HOTA 达 9.97 相比传统 RMOT 方法提升 3 倍。

研究背景与动机

  1. 领域现状:传统 RMOT 使用有限视场相机,目标出帧后跟踪中断,需频繁重新初始化。
  2. 现有痛点:(1) 有限 FoV 导致目标频繁进出视野;(2) 缺乏全向(360°)场景的指代跟踪数据集;(3) 全向图像存在严重畸变和边界穿越问题。
  3. 核心矛盾:全向摄像保证目标持续可见,但引入了投影畸变、物体跨边界等新挑战,现有方法无法直接适用。
  4. 切入角度:构建专门的全向指代跟踪数据集,设计利用 LVLM 开放词汇能力的检测+跟踪框架。

方法详解

整体框架

ORTrack 三阶段:(1) 语言引导检测——LVLM(Qwen2.5-VL-7B)根据自然语言描述检测目标物体;(2) 双层裁剪特征提取——全局+局部特征融合;(3) 跨帧关联——余弦相似度+匈牙利匹配。

关键设计

  1. ORSet 数据集

    • 27 个全向场景(基于 JRDB),17 训练 / 10 测试
    • 848 个自然语言描述,3401 个标注物体
    • 全向特有描述符:边界穿越、周向方向、投影感知、FoV 转换
  2. LVLM 引导检测

    • 使用 Qwen2.5-VL-7B 做开放词汇物体检测:\(\{b_t^i\} = \text{LVLM}(I_t, L)\)
    • 无需预定义类别,直接根据自然语言描述定位
  3. 双层裁剪特征

    • 全局上下文裁剪:\(I_t^{i,\text{global}} = \text{Crop}(I_t, 1.2 \cdot b_t^i)\)
    • 细粒度目标裁剪:\(I_t^{i,\text{local}} = \text{Crop}(I_t, b_t^i)\)
    • 融合:\(\mathbf{f}_t^i = \mathbf{f}_{\text{local}}^i + 0.5 \cdot \mathbf{f}_{\text{global}}^i\)
    • 设计动机:全向图像中目标小(84.7% 是小目标),需要上下文辅助

实验关键数据

主实验(ORSet 零样本)

方法 HOTA DetA AssA LocA
TransRMOT (CVPR2023) 2.41 1.40 4.24 -
TempRMOT 2.00 - - -
ORTrack 9.97 6.37 16.15 79.68

消融实验

配置 HOTA
ORTrack (Qwen2.5-VL-7B) 9.97
ORTrack (OC-SORT 关联) 5.05
GroundingDINO-L <2.0
CLIP 特征编码 9.5 (更快)

关键发现

  • ORTrack 比传统 RMOT 方法高 3 倍+ HOTA,证明 LVLM 在全向场景的有效性
  • 负例准确率 78.35%(vs GroundingDINO 2-7%),说明 LVLM 对不相关目标的拒绝能力强
  • 小目标占 84.7%,是全向 RMOT 的核心挑战
  • LVLM 特征编码 vs CLIP:LVLM 质量更高但 CLIP 速度更快

亮点与洞察

  • 首个全向 RMOT 任务定义和数据集:填补了 360° 视频理解中指代跟踪的空白
  • LVLM 作为检测器:零样本开放词汇检测,无需针对特定场景训练
  • 全向特有描述符:边界穿越等描述符针对全向图像的独特挑战

局限性 / 可改进方向

  • 仅 27 个场景,数据规模有限
  • 绝对 HOTA 值仍然较低(9.97),小目标检测是瓶颈
  • LVLM 推理速度慢(FPS 0.446),实时应用困难
  • 未探索端到端的全向跟踪模型

评分

  • 新颖性: ⭐⭐⭐⭐ 首个全向 RMOT 任务和数据集
  • 实验充分度: ⭐⭐⭐ 规模偏小但消融合理
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰
  • 价值: ⭐⭐⭐⭐ 为 360° 视频理解开辟新方向