Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking¶

会议: CVPR 2025
arXiv: 2504.09228
代码: https://github.com/wuyou3474/ORTrack
领域: 视频理解 / 目标跟踪
关键词: 无人机跟踪, 遮挡鲁棒, Vision Transformer, 知识蒸馏, 空间Cox过程

一句话总结¶

提出 ORTrack 框架，通过基于空间 Cox 过程的随机遮罩来学习遮挡鲁棒的 ViT 特征表征（训练时加遮罩约束、推理时零开销），并设计自适应特征蒸馏方法将大模型压缩为轻量级学生模型 ORTrack-D，在多个无人机跟踪基准上实现 SOTA 精度与实时速度的最佳平衡。

研究背景与动机¶

领域现状：无人机跟踪近年从 DCF（判别相关滤波器）方法转向基于 ViT 的单流架构（如 OSTrack、MixFormer），因其结构简洁且精度高而成为主流。Aba-ViTrack 等轻量化方法已实现了实时 UAV 跟踪。

现有痛点：无人机场景中遮挡问题极为频繁——建筑物、树木等障碍物经常遮挡目标，而现有单流 ViT 跟踪器缺乏专门的遮挡处理策略，遮挡发生时跟踪精度显著下降。此外，Aba-ViTrack 使用可变 token 数量的策略导致非结构化访存操作，实际推理时间开销大。

核心矛盾：需要在保持实时速度的同时提升 ViT 的遮挡鲁棒性——加入复杂的遮挡处理模块会牺牲效率，但不处理遮挡又影响精度。

本文目标 (1) 如何让 ViT 在不增加推理开销的前提下学到遮挡鲁棒的特征表征；(2) 如何将性能强的大模型压缩为部署友好的轻量模型。

切入角度：如果在训练时对模板图像进行随机遮罩、同时约束遮罩前后的特征表征保持一致，那模型就能自然学到对遮挡不敏感的特征。关键创新是用空间 Cox 过程（而非均匀随机）建模遮罩分布，使遮罩更集中在目标中心区域，更真实地模拟实际遮挡。

核心 idea：训练时用空间 Cox 过程驱动的随机遮罩模拟遮挡并最小化遮罩前后特征差异，推理时无额外开销即获得遮挡鲁棒性。

方法详解¶

整体框架¶

ORTrack 包含两阶段串行训练：第一阶段训练教师模型（加入遮挡鲁棒表征学习），第二阶段用自适应知识蒸馏将教师压缩为学生模型。整个框架基于单流 ViT 跟踪架构，输入模板 \(Z\) 和搜索图 \(X\) 拼接后送入 ViT，输出 token 经预测头得到目标框。

关键设计¶

基于空间 Cox 过程的遮挡鲁棒表征学习 (ORR):
- 功能：在训练时模拟遮挡，使 ViT 学到对遮挡不变的特征
- 核心思路：对模板图像 \(Z\) 应用随机遮罩 \(\mathfrak{m}(Z)\) 得到 \(Z'\)，将 \((Z, X)\) 和 \((Z', X)\) 分别输入 ViT，最小化两者输出中模板对应 token 的 MSE。关键在于遮罩分布：不用 MAE 的均匀遮罩，而是用空间 Cox 过程生成非均匀遮罩。Cox 过程是"双重随机泊松过程"——先生成随机强度函数 \(\lambda(x,y) = \Gamma e^{-(x^2+y^2)} / \int e^{-(x^2+y^2)}\)，这是一个钟形函数，使得遮罩更集中在模板的中心区域（即目标所在区域）。随机变量 \(\Gamma\) 引入遮罩比例的随机性，使得训练中看到更多样的遮挡模式。
- 设计动机：均匀遮罩在目标模板上不合理——模板通常包含背景，均匀遮罩可能大部分遮的是背景而非目标。Cox 过程的钟形强度函数让目标区域更大概率被遮罩，更好模拟实际遮挡。推理时不需要遮罩操作，零额外开销。
自适应特征知识蒸馏 (AFKD):
- 功能：将教师模型压缩为更小的学生模型同时保持性能
- 核心思路：学生模型与教师结构相同但 ViT 层数更少。蒸馏损失为教师-学生输出 token 的 MSE，但乘以一个自适应权重 \(\varpi = \alpha + \beta(\mathcal{L}_{iou} - \overline{\mathcal{L}_{iou}})\)，其中 \(\mathcal{L}_{iou}\) 是学生预测与 GT 的 GIoU 损失。当任务困难（损失高于平均）时加大蒸馏力度让学生多学教师，当任务简单（损失低于平均）时减弱蒸馏以保留学生自身的泛化能力。
- 设计动机：传统蒸馏对所有样本一视同仁，但过度模仿教师可能让学生继承教师的虚假相关性。自适应策略让学生在"已经会做的事上保持自主"、在"不会做的事上向教师学习"。
预测头与损失函数:
- 功能：输出目标定位框
- 核心思路：搜索图对应的输出 token 重塑为 2D 特征图，经 4 层 Conv-BN-ReLU 预测分类分数、位置偏移和框大小。训练损失：加权 Focal Loss（分类）+ L1 + GIoU（回归）+ MSE（ORR约束）。
- 设计动机：沿用 OSTrack 的标准预测头，简洁高效。

损失函数 / 训练策略¶

教师阶段：\(\mathcal{L}_T = \mathcal{L}_{pred} + \gamma \mathcal{L}_{orr}\)，其中 \(\gamma = 2 \times 10^{-4}\)。学生阶段：冻结教师权重，\(\mathcal{L}_S = \mathcal{L}_{pred} + \mathcal{L}_{afkd}\)。训练 300 epoch，AdamW 优化器，初始学习率 \(4 \times 10^{-5}\)。

实验关键数据¶

主实验¶

基准	方法	Prec.	Succ.	GPU FPS
UAVDT	ORTrack-DeiT	83.4	60.1	226
UAVDT	Aba-ViTrack	83.4	59.9	182
VisDrone2018	ORTrack-DeiT	88.6	66.8	206
VisDrone2018	AQATrack (CVPR24)	87.2	66.9	53
DTB70	ORTrack-DeiT	86.2	66.4	226
UAV123	ORTrack-DeiT	84.3	66.4	226

ORTrack-D-DeiT（蒸馏版）在4个基准平均 Prec. 83.7%、Succ. 63.7%，速度达 292 FPS（GPU）/ 65 FPS（CPU）。

消融实验¶

配置	UAVDT Prec.	UAVDT Succ.	说明
Baseline (无 ORR)	80.8	57.4	基线 ViT-tiny 跟踪器
+ 均匀遮罩 ORR	82.1	58.5	MAE 式均匀遮罩有帮助但有限
+ Cox 过程遮罩 ORR	83.4	60.1	Cox 遮罩显著优于均匀遮罩
w/o AFKD（常规蒸馏）	81.5	58.9	非自适应蒸馏效果一般
+ AFKD	82.5	59.7	自适应蒸馏优于固定权重蒸馏

关键发现¶

Cox 过程遮罩比 MAE 均匀遮罩提升约 1.3% Prec.，验证了中心聚集遮罩更好模拟真实遮挡的假设
ORR 仅在训练时增加计算，推理完全零开销，非常适合资源受限的 UAV 部署
蒸馏版 ORTrack-D-DeiT 只损失约 1% Prec. 但速度提升 30%（226→292 FPS），实用性极强
在 VisDrone2018 上，ORTrack-DeiT 以 206 FPS 速度超越了所有深度跟踪器（如 AQATrack 53 FPS），速度快 4 倍但精度相当

亮点与洞察¶

空间 Cox 过程模拟遮挡是非常巧妙的建模：不同于简单的均匀遮罩或固定模式遮罩，Cox 过程同时引入了空间非均匀性（中心更可能被遮）和遮罩比例随机性（\(\Gamma\) 的泊松分布），更好地模拟现实遮挡的多样性。这个 idea 可以迁移到其他需要遮挡鲁棒性的任务（行人重识别、姿态估计等）。
"训练时加约束、推理时零开销"的范式：ORR 只是一个训练时的辅助损失，不改变网络结构，可以即插即用到任何 ViT 跟踪器中，实用性很强。
自适应蒸馏的"难易区分"思路：GIoU 偏差作为任务难度的代理指标，简单直观且有效。避免了在简单样本上过度模仿教师导致的过拟合。

局限与展望¶

Cox 过程假设遮挡集中在模板中心，但实际遮挡可能是任意方向的（如从侧面遮挡），更通用的遮挡模拟可能需要条件性的遮罩分布
使用极小的 \(\gamma = 2 \times 10^{-4}\) 权重系数来平衡 ORR 损失，暗示该损失的量级和方向可能与跟踪损失不完全兼容，更深入的梯度分析值得探索
蒸馏只用最后一层特征的 MSE，多层特征蒸馏或关系蒸馏可能带来进一步提升
未在 LaSOT 等大规模通用跟踪基准上测试，UAV 场景之外的泛化性需验证

评分¶

新颖性: ⭐⭐⭐⭐ 空间 Cox 过程用于遮挡模拟有理论新意，自适应蒸馏也不错
实验充分度: ⭐⭐⭐⭐⭐ 4 个 UAV 基准 + 通用跟踪对比 + 详细消融
写作质量: ⭐⭐⭐⭐ 理论推导严谨但 Cox 过程部分对非数学背景读者偏硬核
价值: ⭐⭐⭐⭐ 实用性强，"训练约束+推理零开销"范式可广泛迁移