QTrack: Query-Driven Reasoning for Multi-modal MOT¶

日期: 2026-03-14
arXiv: 2603.13759
代码: QTrack
领域: 视频理解 / 多目标跟踪
关键词: query-driven tracking, MOT, VLM reasoning, reinforcement learning, GRPO

一句话总结¶

提出 QTrack，将多目标跟踪从"跟踪所有物体"扩展为"根据自然语言查询推理并跟踪指定目标"，通过端到端 VLM + TAPO（时序感知策略优化）+ 结构化奖励实现语言条件化的时空推理跟踪，3B 模型即超越 GPT-5.2 等 10+ baseline，并构建 RMOT26 大规模 benchmark。

研究背景与动机¶

领域现状: 传统 MOT 关注"所有物体在哪"（trajectory estimation），按类别检测并关联。VLM 在多模态 grounding 上展现强能力，但跟踪和推理仍是松耦合——先 VLM 识别再交给 tracker，缺乏统一优化。
现有痛点: (a) 传统 MOT 不支持用户意图，无法根据语义指令选择性跟踪；(b) 现有 referring tracking 只做静态描述到目标的 grounding，不显式建模身份持续性和运动推理；(c) 缺乏同时评估推理能力和跟踪质量的 benchmark。
核心 idea: 将跟踪重新定义为语言条件化的时空推理问题——VLM 先推理"跟踪哪个目标"，再端到端预测目标轨迹，用 RL 优化序列级目标而非帧级损失。

方法详解¶

整体框架¶

输入视频帧序列 + 参考帧（含目标 bounding box）+ 自然语言查询 → VLM 生成 chain-of-thought 推理 + 结构化目标边界框轨迹。整体用 GRPO + TAPO 强化学习优化。

关键设计¶

任务分解三层级: 空间 grounding（单帧定位）、时序跟踪（跨帧身份关联）、关系推理（基于行为/交互的多目标推理，如"跟踪捡起红色背包后上出租车的人"）
TAPO（Temporal Perception-Aware Policy Optimization）: 构造时序损坏序列——将所有帧冻结为第一帧静态副本，计算原始输入 vs 损坏输入下策略输出的非对称 KL 散度，显式惩罚对时序信息不敏感的策略，迫使模型依赖运动线索而非仅静态外观
结构化奖励: (a) 格式奖励：检查推理/答案标签完整性；(b) IoU 奖励：Hungarian 匹配后 IoU>0.5 为正；(c) MCP 运动一致性奖励：\(\text{MCP} = \frac{1}{T-1}\sum_{t=2}^{T} A_t \cdot S_t\)，其中 \(A_t\) 为方向余弦相似度、\(S_t\) 为速度 Gaussian 惩罚
RMOT26 Benchmark: 从 DanceTrack / MOT16/17/20 / SportsMOT 等 7 个 MOT 数据集策划，查询由 Qwen-2.5-VL 生成以保证语言多样性，含单目标/多目标/遮挡感知三类查询，序列级划分防止身份泄漏

训练目标¶

\(J_{\text{TAPO}} = J_{\text{GRPO}} + \gamma \cdot D_{\text{KL}}(\pi_{\theta}(\cdot|x) \| \pi_{\theta}(\cdot|\tilde{x}))\)

其中 \(\tilde{x}\) 为时序损坏输入，\(\gamma\) 控制时序感知正则化强度。

实验关键数据¶

RMOT26 主要结果（Table 2）¶

模型	参数	MCP↑	MOTP↑	CLE(px)↓	NDE↓
Qwen2.5-VL-Instruct	7B	0.24	0.48	289.2	2.07
Qwen3-VL-Instruct	8B	0.25	0.64	96.0	0.97
Gemma 3	27B	0.24	0.56	58.4	0.88
Llama 3.2 Vision	11B	0.19	0.15	552.1	2.67
InternVL	8B	0.21	0.66	117.4	0.64
GPT-5.2	-	0.25	0.61	94.2	0.55
QTrack (Ours)	3B	0.30	0.75	44.61	0.39

QTrack 仅 3B 参数即全面超越所有开源/闭源模型：MCP 0.30（+20% vs Qwen3-VL）、CLE 降至 44.61px（GPT-5.2 为 94.2px）。

消融实验（3B 模型）¶

配置	MCP↑	MOTP↑	NDE↓
VisionReasoner baseline	0.21	0.44	2.32
+ GRPO	0.22	0.65	0.96
+ MCP Reward	0.25	0.61	1.06
+ TAPO	0.24	0.72	0.82
QTrack (全部)	0.30	0.75	0.39

传统 MOT 对比¶

MOT17: QTrack MOTP 0.87、HOTA 0.69，超越 MOTR (0.81/0.22) 和 BoostTrack++ (0.76/0.38)
DanceTrack: QTrack MOTA 0.63、HOTA 0.66，超越 MOTRv2 (0.49/0.37)

关键发现¶

参数规模不决定时序推理能力：Gemma 27B (MCP 0.24) 不如 Qwen3 8B (0.25)，说明运动一致性需显式监督
GRPO 显著提升空间对齐（MOTP 0.44→0.65）但 MCP 几乎不变（0.21→0.22），确认帧级优化不足以学习时序推理
MCP 奖励和 TAPO 提供互补增益：前者监督运动一致性，后者正则化时序敏感性，缺一不可

亮点与洞察¶

范式转换: 将 MOT 从"跟踪所有物体"重新定义为"推理后选择性跟踪"，统一了 where + which 两个维度
TAPO 时序损坏策略简洁有效——冻结所有帧为首帧来移除运动信息，用 KL 散度惩罚不利用时间线索的策略
小模型大效果: 3B QTrack 超越 GPT-5.2，说明任务特定的 RL 优化比纯粹 scaling 更高效

局限性¶

评估限于 query-specific 短片段而非完整视频，与传统 MOT 的全序列评估不完全可比
查询类型相对有限，复杂多步推理（如因果链）场景尚未覆盖
VLM 处理长视频序列的效率是实际部署瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ Query-driven tracking + TAPO 是 MOT 方向的新范式
实验充分度: ⭐⭐⭐⭐ 12 个 VLM baseline + 传统 MOT 对比 + 完整消融
写作质量: ⭐⭐⭐⭐ 问题定义清晰，实验分析有深度
价值: ⭐⭐⭐⭐ 推动 MOT 从感知向推理进化，3B 模型超闭源大模型有说服力