SAP: Segment Any 4K Panorama¶
会议: CVPR 2026
arXiv: 2603.12759
代码: lutao2021.github.io/SAP_Page (即将公开)
领域: 语义分割 / 全景图像
关键词: 全景分割, SAM2, 等距柱状投影, 拓扑-记忆对齐, 4K分辨率
一句话总结¶
将全景分割重构为拓扑-记忆对齐问题,通过列优先锯齿扫描将ERP全景图转为透视伪视频序列,完美复用SAM2的流式记忆机制,在零样本4K全景分割上比vanilla SAM2平均提升+17.2 mIoU。
背景与动机¶
4K全景图像(ERP格式)在VR/AR/自动驾驶中广泛使用,但ERP的严重几何畸变(极区拉伸、边界不连续)使标准分割模型性能大幅下降。现有适应方案要么需要重新训练(丢失预训练知识),要么用简单拼凑(忽略ERP拓扑)。SAM2的流式记忆机制天然适合处理序列化输入,但如何将2D全景图合理序列化以匹配SAM2的时序假设是核心挑战。
核心问题¶
如何在不重新训练SAM2的情况下,将4K全景图的ERP畸变和360°环绕拓扑特性转化为SAM2可直接处理的序列化输入格式?
方法详解¶
整体框架¶
ERP全景图 → 列优先锯齿扫描切割为重叠透视视图序列("伪视频") → SAM2流式处理每帧 + 记忆条件推理 → 反投影合并得到全景分割结果。
关键设计¶
-
列优先锯齿扫描(Column-first Zigzag Scanning): 将ERP图像从左到右列扫描,相邻列的切片头尾相连形成锯齿路径,保证相邻帧在空间上连续。这与SAM2的视频帧假设完美匹配——相邻帧内容变化小、可利用记忆。相比行扫描或随机拼凑,列优先保持了水平方向的空间连续性。
-
ERP-to-Perspective转换 + 50%帧重叠: 每个切片从ERP投影到标准透视视图,消除几何畸变。50%的帧间重叠确保每个像素至少被两个视图覆盖,减少边界不一致。重叠区域通过置信度加权融合。
-
混合训练策略(Synthetic+SAM2 Data): 用合成全景数据(HunyuanWorld)和SAM2原始训练数据混合微调,既学习全景特有的畸变模式又保持通用分割能力。
损失函数 / 训练策略¶
标准SAM2训练损失(focal + dice),加全景特有的接缝一致性损失。仅微调SAM2的记忆注意力层,保持大部分参数冻结。
实验关键数据¶
PAV-SOD (真实4K全景)上的零样本mIoU:
| 模型大小 | SAM2 原始 | SAP (本文) | 提升 |
|---|---|---|---|
| Tiny | ~35 | ~59 | +24.2 |
| Small | ~38 | ~57 | +19 |
| Base | ~41 | ~58 | +17 |
| Large | ~44 | ~52 | +8 |
| 平均 | +17.2 |
- 接缝/极区: mIoU 46.1→68.2 (+22.1)
- HunyuanWorld-1.0 (8K合成): +6.6 mIoU
- InfiniGen: +19.1 mIoU
消融实验要点¶
- 50%帧重叠贡献+10.8 mIoU(从无重叠提升)
- ERP-to-Perspective转换比直接ERP切割高+4.7 mIoU
- 混合训练(合成+SAM2数据)远优于任何单一数据源训练
- 列优先扫描优于行优先——保持水平空间连续性
亮点¶
- 最小改动最大收益:不修改SAM2架构,仅改变输入处理方式就获得巨大提升,极度优雅
- 将2D空间问题抽象为拓扑-记忆对齐的视角非常创新
- 在4K/8K超高分辨率全景上验证,实用价值高
- 零样本泛化——不需要目标域标注数据
局限性 / 可改进方向¶
- 列扫描的序列长度随分辨率线性增长(4K→长序列),推理延迟可能较高
- 极区仍然是最难区域——ERP→透视的投影在极区信息损失大
- 对于运动全景视频(如360°视频)未扩展
- 仅验证了SAM2,未测试其他foundation model
与相关工作的对比¶
- OmniSeg3D: 用3D Gaussian+SAM做全景3D分割,但需要多视图数据
- PanoSAM: 直接在ERP上适配SAM,需要重训练且不处理拓扑连续性
- 本文: 无需重训练,通过巧妙的输入序列化直接复用SAM2能力
启发与关联¶
- 将非标准输入格式转化为模型已知格式的思路可推广——如将鱼眼图像序列化输入给标准模型
- SAM2的记忆机制远比预想的更灵活——可以处理非时序的"伪视频"
- 为全景理解任务提供了新的foundation model适配范式
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将全景分割转化为序列化记忆对齐问题的视角极其新颖
- 实验充分度: ⭐⭐⭐⭐ 多分辨率(4K/8K)、多数据集、消融充分,但仅SAM2
- 写作质量: ⭐⭐⭐⭐ 核心idea表达清晰
- 价值: ⭐⭐⭐⭐⭐ 解决了全景分割的实际痛点,方法通用且优雅