SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking¶

会议: ECCV 2024
arXiv: 2409.11235
代码: https://github.com/siyuanliii/SLAck (有)
领域: 视频理解
关键词: 开放词汇跟踪, 多目标跟踪, 语义感知关联, 时空目标图, 特征融合

一句话总结¶

SLAck 提出在多目标跟踪的关联阶段早期统一融合语义、位置和外观三种线索，通过轻量级时空目标图（STOG）学习隐式运动先验和跨线索协同，无需后处理启发式规则，在开放词汇 MOT 和 TAO TETA 基准上显著提升新类别跟踪性能。

研究背景与动机¶

多目标跟踪（MOT）传统上局限于行人、车辆等少数类别。开放词汇跟踪将目标扩展到数百个类别，但也带来了巨大挑战——不同类别的外观、行为和运动模式差异极大。

现有方法的三类痛点：

运动线索（Kalman Filter）：依赖线性运动假设，在行人/车辆场景有效，但开放词汇场景中物体运动高度非线性（动物奔跑、物体翻滚等），KF 失效严重

外观线索（纯外观匹配）：当前最佳方法（如 OVTrack、MASA）主要依赖外观相似度，但存在遮挡敏感、容易混淆外观相似目标、对基类过拟合等问题

语义线索：现有方法要么完全忽略语义，要么仅在最后阶段以硬分组（同类关联）或软分组的启发式方式使用，在开放词汇场景中分类不稳定时效果差

核心矛盾：不同线索各有优劣，但现有混合方法都是在关联的最后阶段通过启发式规则（如 IoU 矩阵 + 外观矩阵加权平均）来融合，这种后期融合无法学到线索之间的协同关系。

关键观察：运动模式与语义类别高度相关——如果模型在训练时学到了马的运动模式，就能通过语义相似性将这种知识迁移到从未见过的斑马上。这意味着语义和运动的联合建模对新类别泛化至关重要。

核心 idea：将语义、位置和外观线索在关联的早期阶段统一融合，通过可学习的时空目标图替代启发式后处理，端到端优化产出单一关联矩阵。

方法详解¶

整体框架¶

SLAck 构建在预训练的开放词汇检测器之上。Pipeline 分三步：(1) 从冻结的检测器中提取语义、位置和外观三种嵌入；(2) 通过特征求和融合为统一表示后送入时空目标图（STOG）；(3) STOG 通过帧内自注意力和帧间交叉注意力建模目标动态，最终输出关联矩阵，使用可微 Sinkhorn 算法端到端训练。

关键设计¶

三线索提取头（Semantic / Location / Appearance Head）:
- 功能：从冻结检测器中提取三种互补的目标描述符
- 核心思路：
  - 语义头：使用 CLIP 对齐的 RCNN 分类头的输出嵌入，经 5 层 MLP 投影得到语义嵌入 \(E_{\text{sem}}\)。这样无需重训即可配置新类别
  - 位置头：将检测框坐标归一化——以图像中心为原点、70%最大维度为缩放因子：\(\left(\frac{x_{\min} - W/2}{s}, \frac{y_{\min} - H/2}{s}, \frac{w}{s}, \frac{h}{s}\right)\)，经 MLP 投影为位置嵌入 \(E_{\text{loc}}\)
  - 外观头：4 层卷积 + MLP 处理 RoI 特征，输出外观嵌入 \(E_{\text{app}}\)
- 设计动机：冻结检测器保持原始检测能力不退化；归一化坐标确保尺度不变性；三种嵌入捕捉目标的不同方面
时空目标图 (Spatial-Temporal Object Graph, STOG):
- 功能：建模帧内目标间的空间关系和帧间目标的时序对应
- 核心思路：先将三种嵌入通过加法融合 \(E_{\text{fused}}^i = E_{\text{app}}^i + E_{\text{loc}}^i + E_{\text{sem}}^i\)，然后交替进行：
  - 帧内自注意力（Spatial Object Graph）：\(\text{SA}_K(Q_K, K_K, V_K) = \sigma\left(\frac{Q_K K_K^T}{\sqrt{d}}\right)V_K\)，分别处理 key 帧和 reference 帧内的目标关系，让模型感知帧内目标的相对位置和相互关系
  - 帧间交叉注意力（Temporal Object Graph）：\(\text{CA}_{K \to R}(Q_K, K_R, V_R)\)，对齐和更新不同帧之间的目标特征，捕捉时序运动模式
- 设计动机：替代显式 Kalman Filter 的线性运动假设，通过注意力机制从数据中学习隐式运动先验，能捕捉线性和非线性运动。帧内自注意力让模型理解场景级目标布局，帧间交叉注意力实现跨帧特征对齐
检测感知训练 (Detection Aware Training, DAT):
- 功能：解决 TAO 数据集标注不完整的问题
- 核心思路：冻结检测器权重，用检测器的预测框（而非仅稀疏 GT）作为训练输入，仅在预测框与 GT 匹配时计算关联损失
- 设计动机：直接用稀疏 GT 训练会导致训练-测试分布不一致。DAT 通过模拟测试条件，使训练时看到与推理时一致的检测框分布，AssocA 提升 +13.7

损失函数 / 训练策略¶

使用可微 Sinkhorn 算法求解最优传输问题：\(\mathcal{L}_{\text{Sinkhorn}} = -\sum_{i,j} T_{ij}' \log(S_{ij}')\)
目标匹配矩阵 \(\mathbf{T}\) 由 GT 对应关系构建，增加 dustbin 类处理出现/消失目标
端到端训练，无需额外启发式规则
训练帧对在 3 秒内的相邻帧中采样

实验关键数据¶

主实验¶

数据集	指标	本文	之前SOTA	提升
OV-MOT val (Novel)	TETA	31.1	30.0 (MASA-R50)	+1.1
OV-MOT val (Novel)	AssocA	37.8	34.6 (MASA-R50)	+3.2
OV-MOT test (Novel)	TETA	27.1	24.1 (OVTrack)	+3.0
TAO TETA (Swin-L)	AssocA	41.8	40.9 (GLEE-Plus)	+0.9
TAO TETA (Swin-T)	AssocA	38.9	36.7 (TETer-T)	+2.2

消融实验¶

配置	AssocA	说明
Lck (仅位置)	28.3	隐式运动，已优于 KF 的 OC-SORT (20.4)
SLck (语义+位置)	35.4 (+7.1)	语义大幅提升运动跟踪
Ack (仅外观)	32.7	纯外观基线
SAck (语义+外观)	35.1 (+2.4)	语义也提升外观跟踪
LAck (位置+外观)	36.4	混合但无语义
SLAck (全模型)	37.8 (+1.4)	三线索协同最优
无 DAT	24.1	DAT 带来 +13.7
硬分组 vs SLAck-SAck	30.6 vs 38.0	早期融合远优于硬分组

关键发现¶

语义线索对新类别跟踪提升最大：仅加语义就让位置跟踪 AssocA 从 28.3 升到 35.4（+7.1），甚至超过了纯外观 SOTA（OVTrack 33.6）
时序图（TOG）对语义和位置线索更重要（+2.4 和 +4.1），空间图（SOG）对外观更重要（+0.9）
DAT 策略影响巨大：+13.7 AssocA，解决训练-测试分布差异是关键
语义线索单独使用不足以替代外观（-4.4），但作为补充效果显著

亮点与洞察¶

早期融合 vs 后期启发式融合的对比实验非常有说服力——硬分组降性能 -4.6，而 SLAck 的早期语义融合提升 +2.8
语义-运动协同的洞察很巧妙：在基类上学到的运动模式可通过语义相似性迁移到新类别（马→斑马）
隐式运动建模替代显式 Kalman Filter，对开放词汇场景的非线性运动更鲁棒
DAT 训练策略简单有效，可迁移到所有使用不完整标注的 MOT 方法

局限与展望¶

仅在 TAO 一个大词汇数据集上训练和评估，泛化性有待更多数据集验证
当前使用 ResNet-50 作为 backbone，与使用更强 backbone 的方法（如 GroundingDINO）相比定位精度偏低
STOG 的注意力机制计算量随目标数增长，密集场景可能有效率问题
语义头的 CLIP 对齐分类能力对长尾类别仍可能不稳定

评分¶

新颖性: ⭐⭐⭐⭐ 早期融合替代后期启发式的思路清晰，语义-运动协同的 insight 有价值
实验充分度: ⭐⭐⭐⭐⭐ 消融极其详尽，逐一分析每种线索和每个模块的贡献
写作质量: ⭐⭐⭐⭐ 动机论述充分，图表清晰，但方法部分符号较多需仔细阅读
价值: ⭐⭐⭐⭐ 为开放词汇跟踪提供了清晰的统一框架，语义的重要性发现对社区有指导意义