跳转至

Daily arXiv

ORMOT — A Dataset and Framework for...

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking¶

日期: 2026-03-05
arXiv: 2603.05384
代码: GitHub
领域: 视频理解
关键词: omnidirectional camera, referring MOT, LVLM, 360° video, open-vocabulary tracking

一句话总结¶

定义全向指代多目标跟踪任务（ORMOT），构建 ORSet 数据集（27 场景/848 描述/3401 标注物体）和 ORTrack 三阶段框架（LVLM 检测 → 双层特征提取 → 跨帧关联），HOTA 达 9.97 相比传统 RMOT 方法提升 3 倍。

研究背景与动机¶

领域现状：传统 RMOT 使用有限视场相机，目标出帧后跟踪中断，需频繁重新初始化。
现有痛点：(1) 有限 FoV 导致目标频繁进出视野；(2) 缺乏全向（360°）场景的指代跟踪数据集；(3) 全向图像存在严重畸变和边界穿越问题。
核心矛盾：全向摄像保证目标持续可见，但引入了投影畸变、物体跨边界等新挑战，现有方法无法直接适用。
切入角度：构建专门的全向指代跟踪数据集，设计利用 LVLM 开放词汇能力的检测+跟踪框架。

方法详解¶

整体框架¶

ORTrack 三阶段：(1) 语言引导检测——LVLM（Qwen2.5-VL-7B）根据自然语言描述检测目标物体；(2) 双层裁剪特征提取——全局+局部特征融合；(3) 跨帧关联——余弦相似度+匈牙利匹配。

关键设计¶

ORSet 数据集：
- 27 个全向场景（基于 JRDB），17 训练 / 10 测试
- 848 个自然语言描述，3401 个标注物体
- 全向特有描述符：边界穿越、周向方向、投影感知、FoV 转换
LVLM 引导检测：
- 使用 Qwen2.5-VL-7B 做开放词汇物体检测：\(\{b_t^i\} = \text{LVLM}(I_t, L)\)
- 无需预定义类别，直接根据自然语言描述定位
双层裁剪特征：
- 全局上下文裁剪：\(I_t^{i,\text{global}} = \text{Crop}(I_t, 1.2 \cdot b_t^i)\)
- 细粒度目标裁剪：\(I_t^{i,\text{local}} = \text{Crop}(I_t, b_t^i)\)
- 融合：\(\mathbf{f}_t^i = \mathbf{f}_{\text{local}}^i + 0.5 \cdot \mathbf{f}_{\text{global}}^i\)
- 设计动机：全向图像中目标小（84.7% 是小目标），需要上下文辅助

实验关键数据¶

主实验（ORSet 零样本）¶

方法	HOTA	DetA	AssA	LocA
TransRMOT (CVPR2023)	2.41	1.40	4.24	-
TempRMOT	2.00	-	-	-
ORTrack	9.97	6.37	16.15	79.68

消融实验¶

配置	HOTA
ORTrack (Qwen2.5-VL-7B)	9.97
ORTrack (OC-SORT 关联)	5.05
GroundingDINO-L	<2.0
CLIP 特征编码	9.5 (更快)

关键发现¶

ORTrack 比传统 RMOT 方法高 3 倍+ HOTA，证明 LVLM 在全向场景的有效性
负例准确率 78.35%（vs GroundingDINO 2-7%），说明 LVLM 对不相关目标的拒绝能力强
小目标占 84.7%，是全向 RMOT 的核心挑战
LVLM 特征编码 vs CLIP：LVLM 质量更高但 CLIP 速度更快

亮点与洞察¶

首个全向 RMOT 任务定义和数据集：填补了 360° 视频理解中指代跟踪的空白
LVLM 作为检测器：零样本开放词汇检测，无需针对特定场景训练
全向特有描述符：边界穿越等描述符针对全向图像的独特挑战

局限性 / 可改进方向¶

仅 27 个场景，数据规模有限
绝对 HOTA 值仍然较低（9.97），小目标检测是瓶颈
LVLM 推理速度慢（FPS 0.446），实时应用困难
未探索端到端的全向跟踪模型

评分¶

新颖性: ⭐⭐⭐⭐ 首个全向 RMOT 任务和数据集
实验充分度: ⭐⭐⭐ 规模偏小但消融合理
写作质量: ⭐⭐⭐⭐ 问题定义清晰
价值: ⭐⭐⭐⭐ 为 360° 视频理解开辟新方向