SAP: Segment Any 4K Panorama¶

会议: CVPR 2026
arXiv: 2603.12759
代码: lutao2021.github.io/SAP_Page (即将公开)
领域: 语义分割 / 全景图像
关键词: 全景分割, SAM2, 等距柱状投影, 拓扑-记忆对齐, 4K分辨率

一句话总结¶

将全景分割重构为拓扑-记忆对齐问题，通过列优先锯齿扫描将ERP全景图转为透视伪视频序列，完美复用SAM2的流式记忆机制，在零样本4K全景分割上比vanilla SAM2平均提升+17.2 mIoU。

背景与动机¶

4K全景图像(ERP格式)在VR/AR/自动驾驶中广泛使用，但ERP的严重几何畸变（极区拉伸、边界不连续）使标准分割模型性能大幅下降。现有适应方案要么需要重新训练（丢失预训练知识），要么用简单拼凑（忽略ERP拓扑）。SAM2的流式记忆机制天然适合处理序列化输入，但如何将2D全景图合理序列化以匹配SAM2的时序假设是核心挑战。

核心问题¶

如何在不重新训练SAM2的情况下，将4K全景图的ERP畸变和360°环绕拓扑特性转化为SAM2可直接处理的序列化输入格式？

方法详解¶

整体框架¶

ERP全景图 → 列优先锯齿扫描切割为重叠透视视图序列("伪视频") → SAM2流式处理每帧 + 记忆条件推理 → 反投影合并得到全景分割结果。

关键设计¶

列优先锯齿扫描(Column-first Zigzag Scanning): 将ERP图像从左到右列扫描，相邻列的切片头尾相连形成锯齿路径，保证相邻帧在空间上连续。这与SAM2的视频帧假设完美匹配——相邻帧内容变化小、可利用记忆。相比行扫描或随机拼凑，列优先保持了水平方向的空间连续性。
ERP-to-Perspective转换 + 50%帧重叠: 每个切片从ERP投影到标准透视视图，消除几何畸变。50%的帧间重叠确保每个像素至少被两个视图覆盖，减少边界不一致。重叠区域通过置信度加权融合。
混合训练策略(Synthetic+SAM2 Data): 用合成全景数据(HunyuanWorld)和SAM2原始训练数据混合微调，既学习全景特有的畸变模式又保持通用分割能力。

损失函数 / 训练策略¶

标准SAM2训练损失（focal + dice），加全景特有的接缝一致性损失。仅微调SAM2的记忆注意力层，保持大部分参数冻结。

实验关键数据¶

PAV-SOD (真实4K全景)上的零样本mIoU：

模型大小	SAM2 原始	SAP (本文)	提升
Tiny	~35	~59	+24.2
Small	~38	~57	+19
Base	~41	~58	+17
Large	~44	~52	+8
平均			+17.2

接缝/极区: mIoU 46.1→68.2 (+22.1)
HunyuanWorld-1.0 (8K合成): +6.6 mIoU
InfiniGen: +19.1 mIoU

消融实验要点¶

50%帧重叠贡献+10.8 mIoU（从无重叠提升）
ERP-to-Perspective转换比直接ERP切割高+4.7 mIoU
混合训练(合成+SAM2数据)远优于任何单一数据源训练
列优先扫描优于行优先——保持水平空间连续性

亮点¶

最小改动最大收益：不修改SAM2架构，仅改变输入处理方式就获得巨大提升，极度优雅
将2D空间问题抽象为拓扑-记忆对齐的视角非常创新
在4K/8K超高分辨率全景上验证，实用价值高
零样本泛化——不需要目标域标注数据

局限性 / 可改进方向¶

列扫描的序列长度随分辨率线性增长（4K→长序列），推理延迟可能较高
极区仍然是最难区域——ERP→透视的投影在极区信息损失大
对于运动全景视频（如360°视频）未扩展
仅验证了SAM2，未测试其他foundation model

与相关工作的对比¶

OmniSeg3D: 用3D Gaussian+SAM做全景3D分割，但需要多视图数据
PanoSAM: 直接在ERP上适配SAM，需要重训练且不处理拓扑连续性
本文: 无需重训练，通过巧妙的输入序列化直接复用SAM2能力

启发与关联¶

将非标准输入格式转化为模型已知格式的思路可推广——如将鱼眼图像序列化输入给标准模型
SAM2的记忆机制远比预想的更灵活——可以处理非时序的"伪视频"
为全景理解任务提供了新的foundation model适配范式

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将全景分割转化为序列化记忆对齐问题的视角极其新颖
实验充分度: ⭐⭐⭐⭐ 多分辨率(4K/8K)、多数据集、消融充分，但仅SAM2
写作质量: ⭐⭐⭐⭐ 核心idea表达清晰
价值: ⭐⭐⭐⭐⭐ 解决了全景分割的实际痛点，方法通用且优雅