AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios¶
会议: AAAI 2026
arXiv: 2511.21053v2
代码: 有 (数据集)
领域: 目标检测 / 多目标跟踪 / 视觉-语言
关键词: RMOT, 无人机, 视觉-语言融合, 多目标跟踪, 基准数据集
一句话总结¶
构建了首个面向无人机场景的大规模 Referring Multi-Object Tracking(RMOT)基准数据集 AerialMind,并提出 HawkEyeTrack(HETrack)方法,通过视觉-语言共进化融合编码器和尺度自适应上下文精炼模块,在无人机航拍场景中实现语言引导的多目标跟踪。
背景与动机¶
RMOT 任务通过自然语言指令实现对视频中特定目标的检测与跟踪,是智能机器人系统的基础能力。然而,现有 RMOT 研究几乎全部局限于地面视角(如 Refer-KITTI、Refer-BDD),无法覆盖无人机航拍的广域监控需求。无人机凭借俯瞰视角和高机动性,在大范围监控和具身智能中越来越重要,但航拍场景带来了目标外观剧变、复杂空间关系、动态场景变化、语义表达多样性等独特挑战。现有 RMOT 数据集和方法无法直接适配这些挑战。
核心问题¶
- 数据集缺失:无人机场景下缺乏大规模 RMOT 基准,限制了航拍 VL 感知的研究
- 标注成本高:RMOT 需要同时标注时序轨迹和自然语言描述,传统人工标注费时费力
- 视觉-语言融合效率低:现有早期融合/晚期融合范式存在模态鸿沟或"语言信号稀释"问题
- 小目标感知困难:航拍场景中高分辨率特征图的有效感受野有限,小尺度目标容易被背景噪声淹没
方法详解¶
整体框架¶
HETrack 基于 Deformable DETR 架构,使用 ResNet50 做视觉骨干、RoBERTa 做语言编码器。关键创新在于编码器和解码器之间插入了两个新模块: 1. Co-evolutionary Fusion Encoder (CFE):在编码阶段实现视觉和语言的双向协同进化 2. Scale Adaptive Contextual Refinement (SACR):在编码器输出和解码器之间增强小目标感知 3. 解码器使用 Semantic Guidance Module 进行语义引导的查询增强
关键设计¶
CFE(共进化融合编码器): - 核心思想:视觉特征的结构化过程和语言信息的引导过程不应独立,而应深度交织、相互促进 - 堆叠 \(N_e\) 个 block,每个 block 包含: - 双向融合层(BFL):通过多头注意力实现视觉→语言和语言→视觉的双向信息流动。视觉特征为语言概念提供具体锚点,语言概念为视觉特征的筛选与增强提供引导 - 可变形编码层(DEL):对融合后的特征做高效的空间关系建模 - 最终用句子级全局特征 \(\mathbf{T}_s\) 对编码输出做整体调制,赋予模型对整体指代意图的把控
SACR(尺度自适应上下文精炼): - 在最高分辨率特征图上用并行空洞卷积(dilation rate = {6, 12, 18})捕获多尺度上下文,不损失空间分辨率 - 自适应通道重校准:GAP → 1D 卷积(核大小由通道维度自适应确定:\(k = |\log_2(C) + b / \gamma|_{\text{odd}}\))→ Sigmoid → 通道加权,抑制背景噪声、强调小目标关键通道
Semantic Guidance Module:检测查询与词级特征做交叉注意力后拼接跟踪查询送入解码器
COALA 标注框架(数据集构建的创新): - 四阶段 Agent 协作:场景理解提示生成(SUP-Agent)→ 半自动目标标注(SOL-Agent,标注者只需两次点击定义时间边界)→ 一致性检查(CC-Agent,跨模态时空逻辑推理验证)→ 表达扩展(EE-Agent,语义等价的多样化改写)
损失函数 / 训练策略¶
- 总损失 = \(\lambda_{cls}\mathcal{L}_{cls} + \lambda_{L1}\mathcal{L}_{L1} + \lambda_{giou}\mathcal{L}_{giou} + \lambda_{ref}\mathcal{L}_{ref}\)
- \(\mathcal{L}_{cls}\):focal loss,\(\mathcal{L}_{L1}\):L1 回归损失,\(\mathcal{L}_{giou}\):GIoU 损失
- 权重配置:\(\lambda_{cls}=2, \lambda_{L1}=5, \lambda_{giou}=2, \lambda_{ref}=2\)
- AdamW 优化器,初始学习率 \(1\times10^{-4}\),第 40 epoch 衰减 10 倍,共 100 epoch
- 8×A100 GPU,batch size 1,300 个 object queries
- 推理阶段得分阈值 0.5,referring 匹配阈值 \(\beta_{ref}=0.4\)
- 模型 51.4M 可训练参数,单 RTX 4080 推理 15.6 FPS
实验关键数据¶
AerialMind 数据集规模:93 视频序列,24.6K 表达式,293.1K 实例,46.14M bbox 标注 — 远超 Refer-KITTI-V2(9.8K 表达式)
In-domain(VisDrone 测试集):
| 方法 | HOTA | DetA | AssA | HOTA_S | HOTA_M |
|---|---|---|---|---|---|
| TransRMOT | 23.54 | 13.18 | 42.24 | 27.21 | 24.05 |
| TempRMOT | 26.24 | 13.06 | 53.22 | 28.14 | 23.77 |
| MGLT | 26.16 | 14.83 | 46.47 | 26.39 | 26.10 |
| HETrack | 31.46 | 21.57 | 46.23 | 34.37 | 31.12 |
Cross-domain(UAVDT 测试集):HETrack HOTA 31.60、DetA 21.35、LocA 83.98 — 均为最佳
Refer-KITTI-V2(地面场景):HOTA 35.40,与 HFF-Track(36.18)接近,验证方法的通用性
消融实验要点¶
- 去掉 CFE+SACR:HOTA 从 31.46→26.41(-5.05),说明两个模块共同贡献巨大
- 仅去 CFE:HOTA 28.27(-3.19),CFE 贡献更大,视觉-语言协同融合是核心
- 仅去 SACR:HOTA 29.89(-1.57),SACR 对小目标检测有效但贡献相对较小
- 融合方式对比:CFE 的双向融合优于 Concat(28.88)、Add(30.39)、Cross-Attn(30.52)
- SACR 内部消融:仅空洞卷积 29.70,仅通道重校准 29.13,两者协同才能达到 31.46
- 引用阈值 \(\beta_{ref}=0.4\) 为最优,过高过低均降性能
- 属性级分析:HETrack 在 Low Resolution(38.49%)、Fast Motion(35.41%)、Night(35.4%)场景优势明显
亮点¶
- 首个无人机 RMOT 基准:填补了航拍场景下语言引导跟踪的数据空白,数据规模远超现有 RMOT 数据集
- COALA 标注框架创新:四阶段 Agent 协作将人工标注简化为"两次点击 + 审核"的模式,显著降低标注成本
- 首次引入属性级评估:逐帧标注 8 种挑战属性(夜间、遮挡、低分辨率、视角变化、尺度变化、快速运动、旋转、低分辨率),提出 HOTA_S 和 HOTA_M 指标
- CFE 的"共进化"思想:不是简单的早融合或晚融合,而是让视觉结构化和语言引导同步迭代演进
- 跨域泛化有趣发现:跨域测试 HOTA 反而更高,作者分析原因是 UAVDT 仅有车辆类别,语义空间更简单
局限性 / 可改进方向¶
- 未利用 LLM 推理能力:当前架构基于传统 VL 融合范式,未引入大语言模型的高级推理
- 部署效率不足:51.4M 参数、15.6 FPS,难以在资源受限的无人机平台实时运行
- 数据集依赖已有标注:基于 VisDrone/UAVDT 扩展,继承了原始数据集的少量标注错误
- 检测精度与定位精度的权衡:HETrack 提升 DetA 的同时 LocA 略降(82.77 vs 其他方法 83+)
- 目标类别有限:训练集 10 类目标,跨域测试集仅车辆,缺乏对更丰富类别的验证
与相关工作的对比¶
- vs TransRMOT/TempRMOT:这些是 RMOT 的开创性工作但仅面向地面场景,HETrack 在 AerialMind 上 HOTA 提升约 5-8 个点
- vs iKUN:iKUN 通过不需要重训练的方式做 RMOT,但在 Refer-KITTI-V2 上性能很低(10.32 HOTA)
- vs HFF-Track:AAAI 2025 的工作,在 Refer-KITTI-V2 上 HFF-Track(36.18)略优于 HETrack(35.40),但 HETrack 在检测召回率上更强(41.16 vs 36.86)
- 数据集对比:AerialMind 的表达式数量(24.6K)、实例数(293.1K)、bbox 标注量(46.14M)均远超所有已有 RMOT 数据集
启发与关联¶
- 与 ideas 中的 预测即感知 (PAP) 小目标检测 相关:该 idea 同样使用 VisDrone/UAVDT 数据集,AerialMind 的 SACR 模块也关注小目标感知,两者可互相借鉴
- COALA 标注框架的 Agent 协作思想可迁移到其他视频理解任务的标注效率提升
- CFE 的"共进化"融合范式对任何需要跨模态对齐的任务(如 referring segmentation、VQA)都有参考价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个无人机 RMOT 基准,方法设计合理但非颠覆性创新
- 实验充分度: ⭐⭐⭐⭐⭐ In-domain/cross-domain/ground-level 三维度评估 + 属性级分析 + 充分消融
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据集和方法的动机阐述充分
- 对我的价值: ⭐⭐⭐ 数据集标注框架和跨模态融合思路有参考意义