跳转至

📚 AI Paper Notes

SAP: Segment Any 4K Panorama

SAP: Segment Any 4K Panorama¶

会议: CVPR 2025
arXiv: 2603.12759
代码: 待确认
领域: 语义分割 / 全景图像
关键词: 全景图分割, SAM2, 等距柱状投影, 4K分割, 视频分割范式, 数据合成

一句话总结¶

将 360° 全景图分割重新定义为透视视频分割问题，通过沿 zigzag 轨迹分解全景图为重叠 patch 序列并微调 SAM2 的 memory 模块，配合 183K 合成 4K 全景图的大规模训练，实现零样本全景分割 +17.2 mIoU 的提升。

研究背景与动机¶

全景图的广泛应用: 360° 全景图像在自动驾驶、机器人导航、VR/AR 中广泛使用，但其等距柱状投影（ERP）格式带来严重的几何失真
SAM2 在全景图上的退化: SAM2 在标准透视图像上表现优异，但直接应用于 ERP 全景图时性能大幅下降——极区物体变形严重，分割边界不准确
接缝不连续性: ERP 图像左右边界在球面上是连续的，但在 2D 展开后形成不连续接缝，导致跨边界物体被错误分割
4K 分辨率挑战: 全景图通常为 4K（4096×2048）或更高分辨率，SAM2 无法直接处理，简单下采样会丢失大量细节
训练数据稀缺: 目前缺乏大规模高质量的全景分割标注数据集
核心idea: 将全景图分割转化为透视视频分割——沿特定轨迹将全景图分解为重叠的透视 patch 序列，复用 SAM2 的视频分割能力

方法详解¶

整体框架¶

SAP 分为三个核心部分：

Zigzag 轨迹分解: 将 4K 全景图按 zigzag（之字形）路径分解为一系列重叠的透视 patch，模拟视频帧序列
SAM2 适配: 冻结 SAM2 主体，仅微调 memory attention 模块以适应全景场景
InfiniGen 数据合成: 利用生成模型合成 183K 张 4K 全景图（共 6.4M mask），解决训练数据不足问题

关键设计 1: Zigzag 轨迹分解¶

将 ERP 全景图沿水平和垂直方向按 zigzag 路径采样为 N 个重叠透视 patch
每个 patch 对应球面上的一个视角，无 ERP 失真
Patch 之间有足够重叠区域，确保物体跨 patch 连续性
轨迹顺序设计保证空间相邻的 patch 在序列中也相邻，便于 SAM2 的 memory 模块建模时空一致性
关键: 轨迹对齐训练比朴素扫描方式多带来 +10.7 mIoU

关键设计 2: SAM2 高效微调¶

冻结 SAM2 的图像编码器和 mask 解码器
仅微调 memory attention 模块，使其学习处理全景 patch 序列的时空依赖
将每个 patch 视为视频中的一帧，patch 间的空间关系类比为视频中的时序关系
模型参数高效——仅需训练 memory 模块的少量参数

关键设计 3: InfiniGen 大规模 4K 全景合成¶

利用扩散模型自动合成 183K 张 4K 全景图
每张全景图自动生成语义分割标注（6.4M mask）
合成数据覆盖多种场景（室内/室外/自然/城市），提升泛化性
解决了全景分割领域标注成本高、数据量少的核心瓶颈

实验关键数据¶

主实验¶

模型	零样本 mIoU	大物体 mIoU	参数量
SAM2-tiny	51.6	—	—
SAM2-large	58.6	—	—
SAP-tiny	75.8	—	—
SAP-large	75.8+	+30.6 vs SAM2	—

零样本 mIoU 提升: +17.2（超越 SAM2 最大模型）
大物体 mIoU 提升最显著: +30.6

消融实验¶

配置	mIoU	说明
朴素扫描 (raster scan)	~65.1	patch 按光栅顺序排列
Zigzag 轨迹 (无对齐训练)	~69.5	轨迹优于光栅
Zigzag + 轨迹对齐训练	75.8	+10.7 vs 朴素扫描
无合成数据	~68	合成数据贡献 ~7-8 mIoU
全量微调 SAM2	~74	memory-only 微调反而更优

关键发现¶

Zigzag 轨迹对齐训练是最大贡献因子（+10.7 mIoU）
SAP-tiny 即超越 SAM2-large，说明架构适配比模型放大更重要
大物体的提升幅度远大于小物体（+30.6 vs 平均 +17.2），说明全景失真对大物体影响最严重
合成数据的规模和多样性对泛化至关重要

亮点与洞察¶

优雅的问题转化: 将全景分割重新定义为透视视频分割，巧妙复用了 SAM2 的强大时序建模能力
轨迹设计的重要性: zigzag 轨迹保持空间邻近性，使 memory 模块能有效利用上下文
数据引擎: InfiniGen 合成 183K 全景图 + 自动标注是解决数据瓶颈的实用方案
效率优势: 仅微调 memory 模块，训练成本低，适合实际部署

局限性¶

合成数据与真实场景可能存在 domain gap，特别是复杂光照和细粒度纹理
Zigzag 轨迹的 patch 数量和重叠率作为超参数需要调优
目前仅支持语义分割，未扩展到实例/全景分割
对非 ERP 格式的全景图（如 cubemap）未做验证

相关工作与启发¶

SAM/SAM2: 本文在 SAM2 基础上做最小适配，验证了基础模型 + 领域适应的有效范式
Trans4PASS: 之前的全景分割方法通常设计专用变形卷积/注意力来处理 ERP 失真，本文证明「分解为透视视图」更简单有效
启发: 视频分割范式可推广到其他需要处理大分辨率/非标准投影图像的任务（卫星图、鱼眼图等）

评分¶

新颖性: ⭐⭐⭐⭐ — 全景→视频的转化思路新颖且优雅
实验充分度: ⭐⭐⭐⭐ — 消融充分，合成数据实验完整
写作质量: ⭐⭐⭐⭐ — 动机清晰，方法描述直观
实用性: ⭐⭐⭐⭐ — 4K 全景分割有广泛应用场景
综合推荐: ⭐⭐⭐⭐