跳转至

SAP: Segment Any 4K Panorama

会议: CVPR 2025
arXiv: 2603.12759
代码: 待确认
领域: 语义分割 / 全景图像
关键词: 全景图分割, SAM2, 等距柱状投影, 4K分割, 视频分割范式, 数据合成

一句话总结

将 360° 全景图分割重新定义为透视视频分割问题,通过沿 zigzag 轨迹分解全景图为重叠 patch 序列并微调 SAM2 的 memory 模块,配合 183K 合成 4K 全景图的大规模训练,实现零样本全景分割 +17.2 mIoU 的提升。

研究背景与动机

  1. 全景图的广泛应用: 360° 全景图像在自动驾驶、机器人导航、VR/AR 中广泛使用,但其等距柱状投影(ERP)格式带来严重的几何失真
  2. SAM2 在全景图上的退化: SAM2 在标准透视图像上表现优异,但直接应用于 ERP 全景图时性能大幅下降——极区物体变形严重,分割边界不准确
  3. 接缝不连续性: ERP 图像左右边界在球面上是连续的,但在 2D 展开后形成不连续接缝,导致跨边界物体被错误分割
  4. 4K 分辨率挑战: 全景图通常为 4K(4096×2048)或更高分辨率,SAM2 无法直接处理,简单下采样会丢失大量细节
  5. 训练数据稀缺: 目前缺乏大规模高质量的全景分割标注数据集
  6. 核心idea: 将全景图分割转化为透视视频分割——沿特定轨迹将全景图分解为重叠的透视 patch 序列,复用 SAM2 的视频分割能力

方法详解

整体框架

SAP 分为三个核心部分:

  1. Zigzag 轨迹分解: 将 4K 全景图按 zigzag(之字形)路径分解为一系列重叠的透视 patch,模拟视频帧序列
  2. SAM2 适配: 冻结 SAM2 主体,仅微调 memory attention 模块以适应全景场景
  3. InfiniGen 数据合成: 利用生成模型合成 183K 张 4K 全景图(共 6.4M mask),解决训练数据不足问题

关键设计 1: Zigzag 轨迹分解

  • 将 ERP 全景图沿水平和垂直方向按 zigzag 路径采样为 N 个重叠透视 patch
  • 每个 patch 对应球面上的一个视角,无 ERP 失真
  • Patch 之间有足够重叠区域,确保物体跨 patch 连续性
  • 轨迹顺序设计保证空间相邻的 patch 在序列中也相邻,便于 SAM2 的 memory 模块建模时空一致性
  • 关键: 轨迹对齐训练比朴素扫描方式多带来 +10.7 mIoU

关键设计 2: SAM2 高效微调

  • 冻结 SAM2 的图像编码器和 mask 解码器
  • 仅微调 memory attention 模块,使其学习处理全景 patch 序列的时空依赖
  • 将每个 patch 视为视频中的一帧,patch 间的空间关系类比为视频中的时序关系
  • 模型参数高效——仅需训练 memory 模块的少量参数

关键设计 3: InfiniGen 大规模 4K 全景合成

  • 利用扩散模型自动合成 183K 张 4K 全景图
  • 每张全景图自动生成语义分割标注(6.4M mask)
  • 合成数据覆盖多种场景(室内/室外/自然/城市),提升泛化性
  • 解决了全景分割领域标注成本高、数据量少的核心瓶颈

实验关键数据

主实验

模型 零样本 mIoU 大物体 mIoU 参数量
SAM2-tiny 51.6
SAM2-large 58.6
SAP-tiny 75.8
SAP-large 75.8+ +30.6 vs SAM2
  • 零样本 mIoU 提升: +17.2(超越 SAM2 最大模型)
  • 大物体 mIoU 提升最显著: +30.6

消融实验

配置 mIoU 说明
朴素扫描 (raster scan) ~65.1 patch 按光栅顺序排列
Zigzag 轨迹 (无对齐训练) ~69.5 轨迹优于光栅
Zigzag + 轨迹对齐训练 75.8 +10.7 vs 朴素扫描
无合成数据 ~68 合成数据贡献 ~7-8 mIoU
全量微调 SAM2 ~74 memory-only 微调反而更优

关键发现

  • Zigzag 轨迹对齐训练是最大贡献因子(+10.7 mIoU)
  • SAP-tiny 即超越 SAM2-large,说明架构适配比模型放大更重要
  • 大物体的提升幅度远大于小物体(+30.6 vs 平均 +17.2),说明全景失真对大物体影响最严重
  • 合成数据的规模和多样性对泛化至关重要

亮点与洞察

  1. 优雅的问题转化: 将全景分割重新定义为透视视频分割,巧妙复用了 SAM2 的强大时序建模能力
  2. 轨迹设计的重要性: zigzag 轨迹保持空间邻近性,使 memory 模块能有效利用上下文
  3. 数据引擎: InfiniGen 合成 183K 全景图 + 自动标注是解决数据瓶颈的实用方案
  4. 效率优势: 仅微调 memory 模块,训练成本低,适合实际部署

局限性

  • 合成数据与真实场景可能存在 domain gap,特别是复杂光照和细粒度纹理
  • Zigzag 轨迹的 patch 数量和重叠率作为超参数需要调优
  • 目前仅支持语义分割,未扩展到实例/全景分割
  • 对非 ERP 格式的全景图(如 cubemap)未做验证

相关工作与启发

  • SAM/SAM2: 本文在 SAM2 基础上做最小适配,验证了基础模型 + 领域适应的有效范式
  • Trans4PASS: 之前的全景分割方法通常设计专用变形卷积/注意力来处理 ERP 失真,本文证明「分解为透视视图」更简单有效
  • 启发: 视频分割范式可推广到其他需要处理大分辨率/非标准投影图像的任务(卫星图、鱼眼图等)

评分

  • 新颖性: ⭐⭐⭐⭐ — 全景→视频的转化思路新颖且优雅
  • 实验充分度: ⭐⭐⭐⭐ — 消融充分,合成数据实验完整
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法描述直观
  • 实用性: ⭐⭐⭐⭐ — 4K 全景分割有广泛应用场景
  • 综合推荐: ⭐⭐⭐⭐