跳转至

SAP: Segment Any 4K Panorama

会议: CVPR 2026
arXiv: 2603.12759
代码: lutao2021.github.io/SAP_Page (即将公开)
领域: 语义分割 / 全景图像
关键词: 全景分割, SAM2, 等距柱状投影, 拓扑-记忆对齐, 4K分辨率

一句话总结

将全景分割重构为拓扑-记忆对齐问题,通过列优先锯齿扫描将ERP全景图转为透视伪视频序列,完美复用SAM2的流式记忆机制,在零样本4K全景分割上比vanilla SAM2平均提升+17.2 mIoU。

背景与动机

4K全景图像(ERP格式)在VR/AR/自动驾驶中广泛使用,但ERP的严重几何畸变(极区拉伸、边界不连续)使标准分割模型性能大幅下降。现有适应方案要么需要重新训练(丢失预训练知识),要么用简单拼凑(忽略ERP拓扑)。SAM2的流式记忆机制天然适合处理序列化输入,但如何将2D全景图合理序列化以匹配SAM2的时序假设是核心挑战。

核心问题

如何在不重新训练SAM2的情况下,将4K全景图的ERP畸变和360°环绕拓扑特性转化为SAM2可直接处理的序列化输入格式?

方法详解

整体框架

ERP全景图 → 列优先锯齿扫描切割为重叠透视视图序列("伪视频") → SAM2流式处理每帧 + 记忆条件推理 → 反投影合并得到全景分割结果。

关键设计

  1. 列优先锯齿扫描(Column-first Zigzag Scanning): 将ERP图像从左到右列扫描,相邻列的切片头尾相连形成锯齿路径,保证相邻帧在空间上连续。这与SAM2的视频帧假设完美匹配——相邻帧内容变化小、可利用记忆。相比行扫描或随机拼凑,列优先保持了水平方向的空间连续性。

  2. ERP-to-Perspective转换 + 50%帧重叠: 每个切片从ERP投影到标准透视视图,消除几何畸变。50%的帧间重叠确保每个像素至少被两个视图覆盖,减少边界不一致。重叠区域通过置信度加权融合。

  3. 混合训练策略(Synthetic+SAM2 Data): 用合成全景数据(HunyuanWorld)和SAM2原始训练数据混合微调,既学习全景特有的畸变模式又保持通用分割能力。

损失函数 / 训练策略

标准SAM2训练损失(focal + dice),加全景特有的接缝一致性损失。仅微调SAM2的记忆注意力层,保持大部分参数冻结。

实验关键数据

PAV-SOD (真实4K全景)上的零样本mIoU:

模型大小 SAM2 原始 SAP (本文) 提升
Tiny ~35 ~59 +24.2
Small ~38 ~57 +19
Base ~41 ~58 +17
Large ~44 ~52 +8
平均 +17.2
  • 接缝/极区: mIoU 46.1→68.2 (+22.1)
  • HunyuanWorld-1.0 (8K合成): +6.6 mIoU
  • InfiniGen: +19.1 mIoU

消融实验要点

  • 50%帧重叠贡献+10.8 mIoU(从无重叠提升)
  • ERP-to-Perspective转换比直接ERP切割高+4.7 mIoU
  • 混合训练(合成+SAM2数据)远优于任何单一数据源训练
  • 列优先扫描优于行优先——保持水平空间连续性

亮点

  • 最小改动最大收益:不修改SAM2架构,仅改变输入处理方式就获得巨大提升,极度优雅
  • 将2D空间问题抽象为拓扑-记忆对齐的视角非常创新
  • 在4K/8K超高分辨率全景上验证,实用价值高
  • 零样本泛化——不需要目标域标注数据

局限性 / 可改进方向

  • 列扫描的序列长度随分辨率线性增长(4K→长序列),推理延迟可能较高
  • 极区仍然是最难区域——ERP→透视的投影在极区信息损失大
  • 对于运动全景视频(如360°视频)未扩展
  • 仅验证了SAM2,未测试其他foundation model

与相关工作的对比

  • OmniSeg3D: 用3D Gaussian+SAM做全景3D分割,但需要多视图数据
  • PanoSAM: 直接在ERP上适配SAM,需要重训练且不处理拓扑连续性
  • 本文: 无需重训练,通过巧妙的输入序列化直接复用SAM2能力

启发与关联

  • 将非标准输入格式转化为模型已知格式的思路可推广——如将鱼眼图像序列化输入给标准模型
  • SAM2的记忆机制远比预想的更灵活——可以处理非时序的"伪视频"
  • 为全景理解任务提供了新的foundation model适配范式

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将全景分割转化为序列化记忆对齐问题的视角极其新颖
  • 实验充分度: ⭐⭐⭐⭐ 多分辨率(4K/8K)、多数据集、消融充分,但仅SAM2
  • 写作质量: ⭐⭐⭐⭐ 核心idea表达清晰
  • 价值: ⭐⭐⭐⭐⭐ 解决了全景分割的实际痛点,方法通用且优雅