Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking¶
会议: CVPR 2025
arXiv: 2504.09228
代码: https://github.com/wuyou3474/ORTrack
领域: 视频理解 / 目标跟踪
关键词: 无人机跟踪, 遮挡鲁棒, Vision Transformer, 知识蒸馏, 空间Cox过程
一句话总结¶
提出 ORTrack 框架,通过基于空间 Cox 过程的随机遮罩来学习遮挡鲁棒的 ViT 特征表征(训练时加遮罩约束、推理时零开销),并设计自适应特征蒸馏方法将大模型压缩为轻量级学生模型 ORTrack-D,在多个无人机跟踪基准上实现 SOTA 精度与实时速度的最佳平衡。
研究背景与动机¶
领域现状:无人机跟踪近年从 DCF(判别相关滤波器)方法转向基于 ViT 的单流架构(如 OSTrack、MixFormer),因其结构简洁且精度高而成为主流。Aba-ViTrack 等轻量化方法已实现了实时 UAV 跟踪。
现有痛点:无人机场景中遮挡问题极为频繁——建筑物、树木等障碍物经常遮挡目标,而现有单流 ViT 跟踪器缺乏专门的遮挡处理策略,遮挡发生时跟踪精度显著下降。此外,Aba-ViTrack 使用可变 token 数量的策略导致非结构化访存操作,实际推理时间开销大。
核心矛盾:需要在保持实时速度的同时提升 ViT 的遮挡鲁棒性——加入复杂的遮挡处理模块会牺牲效率,但不处理遮挡又影响精度。
本文目标 (1) 如何让 ViT 在不增加推理开销的前提下学到遮挡鲁棒的特征表征;(2) 如何将性能强的大模型压缩为部署友好的轻量模型。
切入角度:如果在训练时对模板图像进行随机遮罩、同时约束遮罩前后的特征表征保持一致,那模型就能自然学到对遮挡不敏感的特征。关键创新是用空间 Cox 过程(而非均匀随机)建模遮罩分布,使遮罩更集中在目标中心区域,更真实地模拟实际遮挡。
核心 idea:训练时用空间 Cox 过程驱动的随机遮罩模拟遮挡并最小化遮罩前后特征差异,推理时无额外开销即获得遮挡鲁棒性。
方法详解¶
整体框架¶
ORTrack 包含两阶段串行训练:第一阶段训练教师模型(加入遮挡鲁棒表征学习),第二阶段用自适应知识蒸馏将教师压缩为学生模型。整个框架基于单流 ViT 跟踪架构,输入模板 \(Z\) 和搜索图 \(X\) 拼接后送入 ViT,输出 token 经预测头得到目标框。
关键设计¶
-
基于空间 Cox 过程的遮挡鲁棒表征学习 (ORR):
- 功能:在训练时模拟遮挡,使 ViT 学到对遮挡不变的特征
- 核心思路:对模板图像 \(Z\) 应用随机遮罩 \(\mathfrak{m}(Z)\) 得到 \(Z'\),将 \((Z, X)\) 和 \((Z', X)\) 分别输入 ViT,最小化两者输出中模板对应 token 的 MSE。关键在于遮罩分布:不用 MAE 的均匀遮罩,而是用空间 Cox 过程生成非均匀遮罩。Cox 过程是"双重随机泊松过程"——先生成随机强度函数 \(\lambda(x,y) = \Gamma e^{-(x^2+y^2)} / \int e^{-(x^2+y^2)}\),这是一个钟形函数,使得遮罩更集中在模板的中心区域(即目标所在区域)。随机变量 \(\Gamma\) 引入遮罩比例的随机性,使得训练中看到更多样的遮挡模式。
- 设计动机:均匀遮罩在目标模板上不合理——模板通常包含背景,均匀遮罩可能大部分遮的是背景而非目标。Cox 过程的钟形强度函数让目标区域更大概率被遮罩,更好模拟实际遮挡。推理时不需要遮罩操作,零额外开销。
-
自适应特征知识蒸馏 (AFKD):
- 功能:将教师模型压缩为更小的学生模型同时保持性能
- 核心思路:学生模型与教师结构相同但 ViT 层数更少。蒸馏损失为教师-学生输出 token 的 MSE,但乘以一个自适应权重 \(\varpi = \alpha + \beta(\mathcal{L}_{iou} - \overline{\mathcal{L}_{iou}})\),其中 \(\mathcal{L}_{iou}\) 是学生预测与 GT 的 GIoU 损失。当任务困难(损失高于平均)时加大蒸馏力度让学生多学教师,当任务简单(损失低于平均)时减弱蒸馏以保留学生自身的泛化能力。
- 设计动机:传统蒸馏对所有样本一视同仁,但过度模仿教师可能让学生继承教师的虚假相关性。自适应策略让学生在"已经会做的事上保持自主"、在"不会做的事上向教师学习"。
-
预测头与损失函数:
- 功能:输出目标定位框
- 核心思路:搜索图对应的输出 token 重塑为 2D 特征图,经 4 层 Conv-BN-ReLU 预测分类分数、位置偏移和框大小。训练损失:加权 Focal Loss(分类)+ L1 + GIoU(回归)+ MSE(ORR约束)。
- 设计动机:沿用 OSTrack 的标准预测头,简洁高效。
损失函数 / 训练策略¶
教师阶段:\(\mathcal{L}_T = \mathcal{L}_{pred} + \gamma \mathcal{L}_{orr}\),其中 \(\gamma = 2 \times 10^{-4}\)。学生阶段:冻结教师权重,\(\mathcal{L}_S = \mathcal{L}_{pred} + \mathcal{L}_{afkd}\)。训练 300 epoch,AdamW 优化器,初始学习率 \(4 \times 10^{-5}\)。
实验关键数据¶
主实验¶
| 基准 | 方法 | Prec. | Succ. | GPU FPS |
|---|---|---|---|---|
| UAVDT | ORTrack-DeiT | 83.4 | 60.1 | 226 |
| UAVDT | Aba-ViTrack | 83.4 | 59.9 | 182 |
| VisDrone2018 | ORTrack-DeiT | 88.6 | 66.8 | 206 |
| VisDrone2018 | AQATrack (CVPR24) | 87.2 | 66.9 | 53 |
| DTB70 | ORTrack-DeiT | 86.2 | 66.4 | 226 |
| UAV123 | ORTrack-DeiT | 84.3 | 66.4 | 226 |
ORTrack-D-DeiT(蒸馏版)在4个基准平均 Prec. 83.7%、Succ. 63.7%,速度达 292 FPS(GPU)/ 65 FPS(CPU)。
消融实验¶
| 配置 | UAVDT Prec. | UAVDT Succ. | 说明 |
|---|---|---|---|
| Baseline (无 ORR) | 80.8 | 57.4 | 基线 ViT-tiny 跟踪器 |
| + 均匀遮罩 ORR | 82.1 | 58.5 | MAE 式均匀遮罩有帮助但有限 |
| + Cox 过程遮罩 ORR | 83.4 | 60.1 | Cox 遮罩显著优于均匀遮罩 |
| w/o AFKD(常规蒸馏) | 81.5 | 58.9 | 非自适应蒸馏效果一般 |
| + AFKD | 82.5 | 59.7 | 自适应蒸馏优于固定权重蒸馏 |
关键发现¶
- Cox 过程遮罩比 MAE 均匀遮罩提升约 1.3% Prec.,验证了中心聚集遮罩更好模拟真实遮挡的假设
- ORR 仅在训练时增加计算,推理完全零开销,非常适合资源受限的 UAV 部署
- 蒸馏版 ORTrack-D-DeiT 只损失约 1% Prec. 但速度提升 30%(226→292 FPS),实用性极强
- 在 VisDrone2018 上,ORTrack-DeiT 以 206 FPS 速度超越了所有深度跟踪器(如 AQATrack 53 FPS),速度快 4 倍但精度相当
亮点与洞察¶
- 空间 Cox 过程模拟遮挡是非常巧妙的建模:不同于简单的均匀遮罩或固定模式遮罩,Cox 过程同时引入了空间非均匀性(中心更可能被遮)和遮罩比例随机性(\(\Gamma\) 的泊松分布),更好地模拟现实遮挡的多样性。这个 idea 可以迁移到其他需要遮挡鲁棒性的任务(行人重识别、姿态估计等)。
- "训练时加约束、推理时零开销"的范式:ORR 只是一个训练时的辅助损失,不改变网络结构,可以即插即用到任何 ViT 跟踪器中,实用性很强。
- 自适应蒸馏的"难易区分"思路:GIoU 偏差作为任务难度的代理指标,简单直观且有效。避免了在简单样本上过度模仿教师导致的过拟合。
局限与展望¶
- Cox 过程假设遮挡集中在模板中心,但实际遮挡可能是任意方向的(如从侧面遮挡),更通用的遮挡模拟可能需要条件性的遮罩分布
- 使用极小的 \(\gamma = 2 \times 10^{-4}\) 权重系数来平衡 ORR 损失,暗示该损失的量级和方向可能与跟踪损失不完全兼容,更深入的梯度分析值得探索
- 蒸馏只用最后一层特征的 MSE,多层特征蒸馏或关系蒸馏可能带来进一步提升
- 未在 LaSOT 等大规模通用跟踪基准上测试,UAV 场景之外的泛化性需验证
相关工作与启发¶
- vs Aba-ViTrack: Aba-ViTrack 用自适应 token 计算提升效率但带来非结构化访存;ORTrack 保持固定 token 数并用蒸馏提速,更硬件友好。两者在精度上相当但 ORTrack-D 速度更快。
- vs DropMAE: DropMAE 也用遮罩增强跟踪鲁棒性,但用的是 MAE 框架进行重建;ORTrack 不做重建,只约束特征一致性,更轻量。
- vs SGDViT: SGDViT 从视觉表征角度增强跟踪但速度慢(111 FPS);ORTrack 在精度和速度上全面超越。
评分¶
- 新颖性: ⭐⭐⭐⭐ 空间 Cox 过程用于遮挡模拟有理论新意,自适应蒸馏也不错
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个 UAV 基准 + 通用跟踪对比 + 详细消融
- 写作质量: ⭐⭐⭐⭐ 理论推导严谨但 Cox 过程部分对非数学背景读者偏硬核
- 价值: ⭐⭐⭐⭐ 实用性强,"训练约束+推理零开销"范式可广泛迁移
相关论文¶
- [CVPR 2025] Similarity-Guided Layer-Adaptive Vision Transformer for UAV Tracking
- [CVPR 2025] MUST: The First Dataset and Unified Framework for Multispectral UAV Single Object Tracking
- [CVPR 2025] MambaVLT: Time-Evolving Multimodal State Space Model for Vision-Language Tracking
- [CVPR 2026] Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking
- [AAAI 2026] Distillation Dynamics: Towards Understanding Feature-Based Distillation in Vision Transformers