跳转至

SegFly: A 2D-3D-2D Paradigm for Aerial RGB-Thermal Semantic Segmentation

日期: 2026-03-18
arXiv: 2603.17920
领域: 3D视觉/遥感
关键词: 无人机分割, RGB-热多模态, 自动标注, 多视图几何, 标签传播, SfM, 3D配准

一句话总结

SegFly 提出 2D-3D-2D 范式——从手动标注的 <3% 高分辨率航拍 RGB 图像提升到 3D 语义点云,再投影到全部 RGB 和热图像,实现 91% RGB 自动标注精度 + 88% 热成像精度,通过 3D 点云作为中介实现无硬件同步的 RGB-热配准(87% 像素精度),构建首个大规模航拍 RGB-T 多模态分割基准(20K+ RGB / 15K+ RGB-T)。

研究背景与动机

  1. 数据饥荒: 航拍 RGB 分割数据集极稀缺(多数 <3K 样本),RGB-热多模态对齐数据更少且获取需硬件同步。高分辨率(5472×3648)航拍单图标注需 2-5 小时。

  2. 现有痛点:

    • 手工标注不可扩展:1000 张 = 2000+ 小时标注
    • RGB-热配准极困难:两传感器异步(RGB 30fps vs 热 9fps)、内参差异,直接 2D 仿射变换处理不了分辨率悬殊(5472×3648 vs 640×512)
    • 标签成本双倍:既标 RGB 又标热
  3. 核心洞察: 高重叠航拍序列存在大量多视图冗余(80-95% 帧间重叠),可用于标签传播(SfM 3D 重建 → 反投回 2D)和多模态对齐(3D 点云作为 RGB-热的对齐中介)。

方法详解

整体框架:三阶段 2D-3D-2D

Stage 1: SfM 重建 RGB 3D 点云 + 标注的 2D mask 投影到 3D → 语义点云 Stage 2: 3D 语义点云反投影到所有未标注 RGB → 20K+ 自动标注(91% 准确率) Stage 3: 热图像独立 SfM → ICP 对齐两个点云 → 语义标签自动继承 → 15K+ 热图伪标注(88% 准确率)

关键设计

  1. 3D 中介配准:

    • 做什么:将 RGB-热对齐从 2D 仿射变换提升到 3D 点云配准
    • 核心思路:对热图像序列独立做 SfM 重建热 3D 点云 → 用 GPS 轨迹提供初对齐 → ICP 精化两点云刚体配准
    • 设计动机:3D 配准约束更丰富(利用全局几何一致性),比 2D 特征匹配鲁棒得多
    • 完全软件方案,无需硬件同步
  2. 标签传播的质量控制:

    • 最少 3 帧覆盖才投影该点
    • 负深度点丢弃、重投影误差 > 2 像素丢弃
    • 置信度 < 0.7 的像素不填充
    • 冲突解决:多帧投影同一点取投影距离最小的标注
  3. 热图像零手工标注:

    • 配准后每个热像素投影到 RGB 坐标系,查询 RGB 语义标注并继承
    • 15K+ 热图完全自动标注,无需任何人工

实验关键数据

自动标注质量

模态 手工标注% 自动样本数 精度
RGB <3% 20,606 91%
热成像 0% 15,007 88%

分割性能提升

配置 mIoU
仅手工 GT(<3% 数据) 41.12%
+ SegFly 自动标注 43.95% (+2.8pp)
+ RGB-T 融合(Firefly) 53.92% (+12.8pp)
  • 91% 伪标注不仅不伤害,反而因数据量增加让模型学到更好特征
  • RGB-T 融合(Firefly 架构)贡献 +3.48pp mIoU

RGB-T 配准精度

方法 像素精度
纯视觉 2D 配准 62.3%
GPS + ICP 3D 配准 87.0%

亮点与洞察

  • 多视图几何的优雅应用:3D 点云作为多模态对齐中介,规避了直接 2D 跨模态配准在分辨率悬殊下的困难
  • <3% 手动标注→91% 自动精度的高杠杆率:可推广到卫星遥感、建筑文档等高分辨率多视图场景
  • 消除硬件同步瓶颈:纯软件几何对齐大幅降低多模态 UAV 数据采集门槛——从专业同步无人机($50-100K)到任何异步无人机
  • 首个大规模航拍 RGB-T 基准:之前没有 10K+ 样本的航拍多模态分割数据集

局限性 / 可改进方向

  • SfM 在低纹理/高重复背景(农田、水面)可能失败,精度掉 6-7pp(农田场景)
  • 热成像分辨率低(640×512)限制配准精度上限
  • 标签传播在遮挡严重区域(密集树冠下)可能有较高错误率
  • 当前仅在特定无人机平台验证,不同飞行高度和角度的影响未系统分析
  • 自动标注的 9% 错误区域是否集中在特定类别(如小目标)值得分析

评分

  • 新颖性: ⭐⭐⭐⭐ 2D-3D-2D 多模态扩展新颖,但 SfM 标签传播思想源自 OccuFly
  • 实验充分度: ⭐⭐⭐⭐ 大规模真实数据多模型验证
  • 价值: ⭐⭐⭐⭐⭐ 填补 RGB-T 航拍数据空白,极具应用潜力

核心贡献:2D-3D-2D 范式 + 3D 点云中介配准,<3% 手动标注实现 91%/88% 自动标注准确率,构建首个大规模航拍 RGB-T 基准