Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark¶

会议: AAAI 2026
arXiv: 2503.06983
代码: https://github.com/wang-jh18-SVM/Griffin
领域: 3D视觉 / 协同感知
关键词: 空地协同感知, 无人机-车辆协作, 3D目标检测, 多目标跟踪, 协同感知数据集

一句话总结¶

提出 Griffin，一个空地协同（AGC）3D感知数据集和基准框架，包含250+动态场景（37K+帧），通过CARLA-AirSim联合仿真实现真实无人机动力学、变化巡航高度（20-60m）和遮挡感知标注，并提供系统化的鲁棒性评估协议。

研究背景与动机¶

领域现状¶

协同感知已成为克服单车系统限制（遮挡、有限视野）的重要方向。主要模式包括： - V2V（车车协同）：OPV2V、V2V4Real等 - V2I（车路协同）：DAIR-V2X、V2X-Seq等 - UAV协同：CoPerception-UAVs、UAV3D等

核心矛盾¶

V2V/V2I系统需要大规模基础设施投资和车联网普及，经济门槛高。空地协同（AGC）——将无人机与地面车辆配对——是更灵活、经济的替代方案，可按需部署，提供无遮挡的鸟瞰视角。但AGC感知研究受制于缺乏高质量公共数据集和基准。

现有数据集的不足¶

问题	受影响的数据集
理想化通信和定位（无噪声）	UAV3D, AeroCollab3D, Air-Co-Pred, AirV2X
简化无人机模型（固定方向/高度）	V2U-COO, UAV3D, Air-Co-Pred
缺乏遮挡感知标注	CoPerception-UAVs, UAV3D, AeroCollab3D, AirV2X
无跟踪ID	AGC-Drive
仅2D标注	CoPeD

关键差距：没有一个AGC数据集同时具备遮挡感知标注、真实噪声仿真、多高度支持和跟踪ID。

本文切入角度¶

构建Griffin——首个同时支持遮挡感知3D标注、真实无人机动力学、多高度设置和通信干扰/定位误差仿真的AGC感知数据集，并提供统一的检测和跟踪基准框架。

方法详解¶

整体框架¶

Griffin由三部分组成： 1. 数据集：CARLA-AirSim联合仿真 → 多传感器数据采集 → 遮挡感知标注 2. 基准框架：四种融合范式（早期/中间BEV级/中间实例级/晚期）的标准化实现 3. 评估协议：精度+通信效率+鲁棒性（延迟、丢包、定位误差）

关键设计¶

1. 数据采集与场景多样性¶

功能：通过CARLA-AirSim联合仿真生成同步多智能体数据。

传感器配置： - 地面车辆：4个宽视场RGB相机（108.8°, 1920×1080）+ 80线LiDAR（10Hz，垂直FOV -25°到15°） - 空中无人机：5个向下相机（受SWaP约束，无LiDAR）

场景多样性： - 4张CARLA地图（2个城市 + 2个郊区） - 天气：晴天/雨天/雾天 × 正午/日落/夜晚 × 风速0-9m/s - 高度：Griffin-Random（20-60m）、Griffin-25m/40m/55m（各±2m） - 255个场景片段，每段~15秒，总计37.7K帧、339.3K图像、914.8K 3D标注

无人机动力学真实性：利用AirSim的物理引擎模拟，俯仰/横滚角分布在零附近而非尖峰——反映了真实无人机持续的微调和抗风姿态调整。

设计动机： - CARLA提供丰富环境和交通流，AirSim提供真实无人机物理模型 - 无LiDAR的无人机配置贴近实际（如比亚迪-大疆方案，小型无人机载荷<1kg） - 变化高度和天气条件测试方法的泛化能力

2. 遮挡感知标注¶

功能：量化每个目标对每个智能体的可见率，过滤不可见目标。

核心思路： 1. 采集RGB和实例分割图像（完全对齐） 2. 在每个3D包围盒内采样点，投影到分割图像上 3. 比对投影像素的语义类别和实例ID与目标的一致性 4. 计算每个智能体的可见率 5. 协同感知GT：保留对任一智能体可见的目标

设计动机： - 许多数据集仅按距离过滤标注（黄色框），忽略了严重遮挡的目标（红色框） - 不做遮挡过滤会引入不可见目标的标注噪声，降低模型训练质量 - 实验验证：不做遮挡过滤的训练使Early Fusion AP从0.607降至0.586

3. 基准框架¶

功能：在统一backbone（BEVFormer + ResNet-50）上实现四种融合范式。

四种融合策略：

融合类型	代表方法	通信量(BPS)	特点
Early Fusion	原始图像传输	3.11×10⁸	性能上界，带宽极高
BEV级中间融合	V2X-ViT, Where2comm	3.3-8.0×10⁵	场景级BEV特征，压缩后传输
实例级中间融合	UniV2X, CoopTrack	0.56-1.17×10⁵	稀疏目标query，带宽更低
Late Fusion	检测结果传输	1.56×10³	极低带宽，性能有限

评估协议： - 精度：NuScenes AP和AMOTA - 通信效率：每秒传输字节数(BPS) - 鲁棒性：通信延迟（0-400ms）、丢包率（0-50%）、定位误差（平移0-2.5m, 旋转0-5°）

损失函数 / 训练策略¶

AdamW优化器，学习率2×10⁻⁴，batch size 8
4×NVIDIA 3090 GPU分布式训练
输入图像从1920×1080降采样到960×540
目标合并为3类（汽车、行人、两轮车）
感知范围：以ego车辆为中心的102.4m×102.4m区域

实验关键数据¶

主实验¶

各方法在不同高度数据集上的表现¶

方法	Griffin-25m AP/AMOTA	Griffin-55m AP/AMOTA	通信量(BPS)
No Fusion	0.375/0.365	0.335/0.359	0
Early Fusion	0.607/0.670	0.483/0.522	3.11×10⁸
V2X-ViT	0.465/0.508	0.350/0.379	8.00×10⁵
Where2comm	0.396/0.406	0.317/0.353	3.30×10⁵
CoopTrack	0.479/0.488	0.364/0.402	1.17×10⁵
UniV2X	0.419/0.456	0.323/0.349	5.58×10⁴
Late Fusion	0.378/0.377	0.306/0.332	1.56×10³

Griffin-Random（20-60m混合高度）¶

方法	AP	vs No Fusion
No Fusion	0.459	—
Early Fusion	0.583	+0.124
V2X-ViT	0.400	-0.059
Where2comm	0.406	-0.053
CoopTrack	0.468	+0.009
UniV2X	0.402	-0.057

消融实验¶

遮挡感知标注的影响（Griffin-25m）¶

模型	标注方式	AP	AMOTA
Early Fusion	遮挡感知（baseline）	0.607	0.670
Early Fusion	无过滤	0.586(↓)	0.636(↓)
Vehicle Side	遮挡感知	0.477	0.457
Vehicle Side	无过滤	0.412(↓)	0.433(↓)

通信鲁棒性¶

延迟(ms)	Early Fusion AP降幅	中间融合表现
100	~10%	仍优于No Fusion
200	~20%	检测勉强优于, 跟踪仍好
400	>30%	跟踪仍维持优势

定位鲁棒性¶

平移误差std(m)	V2X-ViT	UniV2X
0.5	正常	正常
1.5	低于No Fusion	仍优于No Fusion
2.5	严重退化	仍保持优势

关键发现¶

高度变化对协同感知影响巨大：25m高度时协同增益最大，随高度增加性能下降。在混合高度（20-60m）下，多数中间融合方法甚至不如单车baseline
实例级融合比BEV级更鲁棒：CoopTrack是唯一在Griffin-Random上保持正增益的中间融合方法——因为实例级方法将几何变换和语义特征解耦，对视角不一致更鲁棒
Where2comm和UniV2X在AGC场景中表现不佳：无人机鸟瞰视角下目标稀疏，基于正样本检测的空间置信图/稀疏query训练不充分
丢包比延迟的影响更小：丢包只导致信息缺失（减少增益），不引入错误数据；而延迟导致空间不对齐
UniV2X对定位误差最鲁棒：选择性融合和实例级过滤能降权不可靠信号
遮挡感知标注很重要：不做过滤使协同和单车模型性能都下降
跟踪比检测对延迟更鲁棒：时序信息帮助缓解帧间对齐问题

亮点与洞察¶

"高度变化使协同感知失效"是AGC特有的深刻发现：V2V/V2I中不存在这个问题，但对AGC至关重要
遮挡感知标注方法简洁有效：利用仿真器的实例分割GT量化可见率，避免了手动标注的成本
鲁棒性评估范围激进（2.5m平移/5°旋转/400ms延迟/50%丢包）：远超标准评估范围，揭示了方法的真实失效边界
CARLA-AirSim联合仿真框架：巧妙利用两个仿真器各自的优势（CARLA的环境+AirSim的无人机物理）
对BEV vs 实例级融合的深入对比：在AGC场景中为融合策略选择提供了明确指导

局限与展望¶

仿真数据与真实数据的域差距：虽然已尽力逼近真实（无LiDAR无人机、噪声注入），但sim-to-real gap仍存在
仅评估汽车类别：行人和两轮车的评估结果未在主文展示
固定backbone（ResNet-50 BEVFormer）：更强的单车检测器可能改变融合方法的相对排名
未考虑天气对不同方法的差异化影响：虽然数据覆盖多种天气，但分析中未按天气分组
应开发高度自适应和尺度感知的融合机制来解决核心挑战
可探索更先进的Late Fusion策略：在极低带宽下可能获得更好的性价比

评分¶

新颖性: ⭐⭐⭐⭐ — AGC数据集不是全新概念，但遮挡感知标注和系统化鲁棒性评估有新意
实验充分度: ⭐⭐⭐⭐⭐ — 6种方法×4个高度×3种干扰类型，评估极为全面
写作质量: ⭐⭐⭐⭐⭐ — 数据集构建细节和实验分析都非常深入
价值: ⭐⭐⭐⭐⭐ — 填补AGC感知研究的关键数据空白，"高度鲁棒性"发现对后续研究有重要指导意义