跳转至

UAVScenes: A Multi-Modal Dataset for UAVs

会议: ICCV 2025
arXiv: 2507.22412
代码: https://github.com/sijieaaa/UAVScenes
领域: 自动驾驶
关键词: 无人机感知, 多模态数据集, 语义分割, 深度估计, LiDAR 点云

一句话总结

UAVScenes 是首个同时提供逐帧图像和 LiDAR 点云语义标注及精确 6-DoF 位姿的大规模多模态无人机数据集,包含超 12 万帧标注数据,支持语义分割、深度估计、定位、场景识别和新视角合成等六类感知任务。

研究背景与动机

无人机感知的需求

随着低空经济的蓬勃发展,无人机已在空中出租、低空物流、农业、巡检、应急响应等领域广泛应用。与地面车辆不同,无人机在地面约束之上操作,需要训练高质量数据集来实现可靠的感知能力。

现有无人机数据集的系统性缺陷

作者对现有无人机数据集进行了系统性梳理,发现存在三个层次的问题:

第一层:仅单模态 - 大量数据集(UAVDT、VisDrone、UAVid、FloodNet 等)仅包含相机图像,缺少 3D LiDAR 数据 - 无法进行 3D 场景理解和高精度多模态融合

第二层:多模态但无逐帧标注 - NTU VIRAL、GrAco、FIReStereo、MUN-FRL 等提供了相机+LiDAR 数据,但主要面向 SLAM 或 3D 重建 - UrbanScene3D 和 Hessigheim 3D 仅在重建的 3D 地图上标注,缺乏逐帧标注 - GauU-Scene 使用 DJI-L1 加密点云,无法访问逐帧 LiDAR 数据

第三层:核心空白 - 没有任何现有多模态无人机数据集同时提供逐帧图像标注和逐帧 LiDAR 点云标注 - 这直接阻碍了逐帧语义分割、深度估计、精确定位等高级感知任务的研究

本文的定位与贡献

UAVScenes 基于 MARS-LVIG 数据集(原本仅面向 SLAM 的多模态无人机数据),通过三大扩展填补空白: 1. 为逐帧图像添加 19 类语义标注(16 个静态类 + 2 个动态类 + 1 个背景类) 2. 为逐帧 LiDAR 点云添加语义标注 3. 重建精确的 6-DoF 位姿(原始仅有 4-DoF RTK 位姿)

方法详解

整体框架

UAVScenes 的构建流程分为三个阶段:3D 重建获取 6-DoF 位姿 → 图像语义标注 → LiDAR 点云语义标注。每个阶段都包含严格的质量控制和人工审核。

关键设计

1. 6-DoF 位姿重建

  • 功能:从 MARS-LVIG 的 4-DoF RTK 位姿升级为完整的 6-DoF 位姿
  • 核心思路
    • 首先尝试 LVI-SLAM 方法(FAST-LIVO、R3LIVE),但因无人机朝地面飞行导致 LiDAR 退化,重建质量差
    • 转用 Structure-from-Motion(SfM)方案,测试了 COLMAP、RealityCapture、Metashape、DJI Terra
    • 最终选择 DJI Terra:它能接受 GNSS 坐标作为初始化,且专为无人机场景设计,重建效果最好
    • 将整个 MARS-LVIG 按环境和光照条件分为 8 个 split,每个 split 独立进行 SfM 重建(每个 split 耗时 3-10 小时)
  • 设计动机:精确的 6-DoF 位姿是所有下游任务(特别是 NVS 和精确定位)的基础。4-DoF 只包含 3D 位置和偏航角,无法支持更精细的评估

2. 图像语义标注流程

  • 功能:为 12 万+ 帧图像提供 19 类像素级语义标注
  • 核心思路分两步:
    • 静态类标注(16 类):在 3D 重建的点云地图上进行人工语义标注,然后渲染回对应的相机视角得到 2D 语义掩码。利用 3D 一致性保证跨帧标注的一致性
    • 动态类标注(2 类:轿车和卡车):在每帧图像上进行实例级人工标注。利用 X-AnyLabeling 的跟踪功能部分加速,但跟踪不稳定,仍需大量人工验证和修正。共标注了 28 万+ 个动态实例
    • 最终将静态和动态标注合并为完整的逐帧标注
  • 设计动机:基于 3D 地图标注静态类可以保证跨帧一致性(同一建筑物在不同帧中标注一致),这是传统逐帧标注难以保证的

3. LiDAR 点云语义标注

  • 功能:为逐帧 Livox-Avia LiDAR 点云提供语义标注
  • 核心思路
    • 利用相机-LiDAR 硬件同步和标定,将图像语义标注投影到对应的 LiDAR 点云
    • 自动投影后进行人工一致性检查和修正
    • 仅使用 Livox-Avia 的开源点云(DJI-L1 输出加密无法使用)
  • 设计动机:通过图像→点云的投影可以高效获得初始标注,再通过人工修正保证质量

损失函数 / 训练策略

作为数据集论文,不涉及特定模型训练。基准实验中各任务使用标准的训练设定。

实验关键数据

主实验(图像语义分割)

参数量 架构 模型 mIoU ↑
22M Transformer DeiT3-s 67.6
38M Transformer DeiT3-m 68.3
22M Transformer ViT-s 63.9
5M Transformer ViT-t 62.8
25M CNN ResNet-50 61.3
44M CNN ResNet-101 60.7
21M CNN ResNet-34 59.9
28M CNN ConvNext-t 55.3
48M CNN MambaOut-s 51.8

所有模型使用 UperNet 作为分割头。Transformer 系列全面优于 CNN,DeiT3-m 取得最佳 mIoU 68.3%。

消融实验(LiDAR 语义分割)

参数量 模型 mIoU ↑ 说明
38M MinkUNet 32.7 体素化点云方法
39M SPUNet 34.4 稀疏卷积方法
11M PTv2 33.2 Point Transformer 方法

LiDAR 分割整体 mIoU 远低于图像分割(~33% vs ~68%),说明航拍 LiDAR 点云的语义分割极具挑战性。

关键发现

  • Transformer 优于 CNN:即使参数量更少(如 ViT-t 仅 5M),Transformer 架构在无人机语义分割上也优于大参数量 CNN
  • LiDAR 分割远比图像分割难:mIoU 差异约 35 个百分点,可能因为航拍 LiDAR 点云密度低、模式与地面不同
  • 动态目标标注的挑战:轿车和卡车的 IoU 明显低于静态类别,反映了动态目标检测在无人机场景下的难度
  • Solar Panel、Umbrella 等小目标:IoU 极低(<10%),是未来改进的重点方向
  • 多遍历覆盖:数据集包含同一场景的多次穿越,可支持场景变化检测等时序任务

亮点与洞察

  • 唯一性:全球首个同时提供 6-DoF 位姿 + 逐帧图像标注 + 逐帧 LiDAR 标注的真实场景无人机数据集
  • 标注流程创新:通过在 3D 地图上标注静态类再渲染回 2D 的方法,既保证了跨帧一致性又降低了标注成本
  • 任务覆盖全面:单一数据集支持 6 种不同任务,为无人机感知提供了统一的评估平台
  • 规模优势:12 万+ 帧标注数据远超大多数现有无人机数据集
  • 开源与可复现:数据和代码均公开可用

局限与展望

  • 环境多样性有限:基于 MARS-LVIG,仅覆盖城镇、山谷、机场、岛屿等场景,缺少极端天气、夜间等条件
  • DJI-L1 加密限制:无法使用 DJI-L1 的高质量 LiDAR 数据,仅用了 Livox-Avia
  • 动态目标类别有限:仅标注了轿车和卡车两种动态目标,缺少行人、自行车等
  • SfM 重建精度:依赖 DJI Terra 的商业工具,重建精度可能不如 SLAM 在理想条件下的结果
  • 标注效率:虽有半自动流程,但 28 万动态实例的标注仍需大量人工,扩展到更大规模面临成本挑战

相关工作与启发

  • SemanticKITTI:地面自动驾驶中 LiDAR 语义分割的标杆数据集,标注方法论对本文有直接影响
  • nuScenes / Waymo:自动驾驶多模态数据集的代表,但均为地面视角
  • MARS-LVIG:本数据集的基础,原始版本仅面向 SLAM
  • 启示:将地面自动驾驶的数据集构建方法论迁移到无人机领域,通过 3D 标注渲染到 2D 来保证一致性

评分

  • 新颖性: ⭐⭐⭐⭐ — 填补了明确的数据集空白
  • 实验充分度: ⭐⭐⭐⭐ — 多任务基准全面,但各任务实验规模偏小
  • 写作质量: ⭐⭐⭐⭐ — 对比表格清晰,相关工作梳理全面
  • 价值: ⭐⭐⭐⭐⭐ — 作为基础设施型贡献,对无人机感知研究价值很高

相关论文