SAP: Segment Any 4K Panorama¶
会议: CVPR 2025
arXiv: 2603.12759
代码: 待确认
领域: 语义分割 / 全景图像
关键词: 全景图分割, SAM2, 等距柱状投影, 4K分割, 视频分割范式, 数据合成
一句话总结¶
将 360° 全景图分割重新定义为透视视频分割问题,通过沿 zigzag 轨迹分解全景图为重叠 patch 序列并微调 SAM2 的 memory 模块,配合 183K 合成 4K 全景图的大规模训练,实现零样本全景分割 +17.2 mIoU 的提升。
研究背景与动机¶
- 全景图的广泛应用: 360° 全景图像在自动驾驶、机器人导航、VR/AR 中广泛使用,但其等距柱状投影(ERP)格式带来严重的几何失真
- SAM2 在全景图上的退化: SAM2 在标准透视图像上表现优异,但直接应用于 ERP 全景图时性能大幅下降——极区物体变形严重,分割边界不准确
- 接缝不连续性: ERP 图像左右边界在球面上是连续的,但在 2D 展开后形成不连续接缝,导致跨边界物体被错误分割
- 4K 分辨率挑战: 全景图通常为 4K(4096×2048)或更高分辨率,SAM2 无法直接处理,简单下采样会丢失大量细节
- 训练数据稀缺: 目前缺乏大规模高质量的全景分割标注数据集
- 核心idea: 将全景图分割转化为透视视频分割——沿特定轨迹将全景图分解为重叠的透视 patch 序列,复用 SAM2 的视频分割能力
方法详解¶
整体框架¶
SAP 分为三个核心部分:
- Zigzag 轨迹分解: 将 4K 全景图按 zigzag(之字形)路径分解为一系列重叠的透视 patch,模拟视频帧序列
- SAM2 适配: 冻结 SAM2 主体,仅微调 memory attention 模块以适应全景场景
- InfiniGen 数据合成: 利用生成模型合成 183K 张 4K 全景图(共 6.4M mask),解决训练数据不足问题
关键设计 1: Zigzag 轨迹分解¶
- 将 ERP 全景图沿水平和垂直方向按 zigzag 路径采样为 N 个重叠透视 patch
- 每个 patch 对应球面上的一个视角,无 ERP 失真
- Patch 之间有足够重叠区域,确保物体跨 patch 连续性
- 轨迹顺序设计保证空间相邻的 patch 在序列中也相邻,便于 SAM2 的 memory 模块建模时空一致性
- 关键: 轨迹对齐训练比朴素扫描方式多带来 +10.7 mIoU
关键设计 2: SAM2 高效微调¶
- 冻结 SAM2 的图像编码器和 mask 解码器
- 仅微调 memory attention 模块,使其学习处理全景 patch 序列的时空依赖
- 将每个 patch 视为视频中的一帧,patch 间的空间关系类比为视频中的时序关系
- 模型参数高效——仅需训练 memory 模块的少量参数
关键设计 3: InfiniGen 大规模 4K 全景合成¶
- 利用扩散模型自动合成 183K 张 4K 全景图
- 每张全景图自动生成语义分割标注(6.4M mask)
- 合成数据覆盖多种场景(室内/室外/自然/城市),提升泛化性
- 解决了全景分割领域标注成本高、数据量少的核心瓶颈
实验关键数据¶
主实验¶
| 模型 | 零样本 mIoU | 大物体 mIoU | 参数量 |
|---|---|---|---|
| SAM2-tiny | 51.6 | — | — |
| SAM2-large | 58.6 | — | — |
| SAP-tiny | 75.8 | — | — |
| SAP-large | 75.8+ | +30.6 vs SAM2 | — |
- 零样本 mIoU 提升: +17.2(超越 SAM2 最大模型)
- 大物体 mIoU 提升最显著: +30.6
消融实验¶
| 配置 | mIoU | 说明 |
|---|---|---|
| 朴素扫描 (raster scan) | ~65.1 | patch 按光栅顺序排列 |
| Zigzag 轨迹 (无对齐训练) | ~69.5 | 轨迹优于光栅 |
| Zigzag + 轨迹对齐训练 | 75.8 | +10.7 vs 朴素扫描 |
| 无合成数据 | ~68 | 合成数据贡献 ~7-8 mIoU |
| 全量微调 SAM2 | ~74 | memory-only 微调反而更优 |
关键发现¶
- Zigzag 轨迹对齐训练是最大贡献因子(+10.7 mIoU)
- SAP-tiny 即超越 SAM2-large,说明架构适配比模型放大更重要
- 大物体的提升幅度远大于小物体(+30.6 vs 平均 +17.2),说明全景失真对大物体影响最严重
- 合成数据的规模和多样性对泛化至关重要
亮点与洞察¶
- 优雅的问题转化: 将全景分割重新定义为透视视频分割,巧妙复用了 SAM2 的强大时序建模能力
- 轨迹设计的重要性: zigzag 轨迹保持空间邻近性,使 memory 模块能有效利用上下文
- 数据引擎: InfiniGen 合成 183K 全景图 + 自动标注是解决数据瓶颈的实用方案
- 效率优势: 仅微调 memory 模块,训练成本低,适合实际部署
局限性¶
- 合成数据与真实场景可能存在 domain gap,特别是复杂光照和细粒度纹理
- Zigzag 轨迹的 patch 数量和重叠率作为超参数需要调优
- 目前仅支持语义分割,未扩展到实例/全景分割
- 对非 ERP 格式的全景图(如 cubemap)未做验证
相关工作与启发¶
- SAM/SAM2: 本文在 SAM2 基础上做最小适配,验证了基础模型 + 领域适应的有效范式
- Trans4PASS: 之前的全景分割方法通常设计专用变形卷积/注意力来处理 ERP 失真,本文证明「分解为透视视图」更简单有效
- 启发: 视频分割范式可推广到其他需要处理大分辨率/非标准投影图像的任务(卫星图、鱼眼图等)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 全景→视频的转化思路新颖且优雅
- 实验充分度: ⭐⭐⭐⭐ — 消融充分,合成数据实验完整
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法描述直观
- 实用性: ⭐⭐⭐⭐ — 4K 全景分割有广泛应用场景
- 综合推荐: ⭐⭐⭐⭐