跳转至

Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation

会议: CVPR 2026
arXiv: 2603.15475
代码:
领域: 语义分割
关键词: 全景语义分割, 开放集域自适应, 视场角迁移, 图匹配, 欧拉注意力

一句话总结

提出 EDA-PSeg 框架,通过图匹配适配器(GMA)和欧拉-边际注意力(EMA)两个核心模块,首次实现从针孔视图到 360° 全景图像的开放集无监督域自适应语义分割,同时处理几何视场角畸变和未知类别发现。

研究背景与动机

  1. 全景视觉的重要性:全景图像提供 360° 视场角(FoV),能实现无遮挡的完整场景感知,在自动驾驶和机器人领域有广泛应用。
  2. 跨域全景分割的挑战:现有方法在有标注的针孔图像(源域)上训练,迁移到无标注的全景图像(目标域),但面临严重的几何 FoV 畸变和语义分布不一致问题。
  3. 闭集假设的局限:现有 CPS 方法大多假设测试时只出现训练中见过的类别(闭集设定),在开放世界场景中遇到未知物体时会失败,存在安全隐患。
  4. 像素级原型方法的不足:现有开放集域自适应方法(如 BUS、UniMAP)依赖像素级原型映射,但全景图像的风格不一致和几何畸变使这类方法效果受限。
  5. 恶劣天气条件的干扰:从单一或多种天气条件到多样恶劣天气的迁移,会进一步破坏跨域对齐效果。
  6. 首个开放集全景分割工作:本文首次定义了开放集跨域全景语义分割任务,要求模型在适应不同 FoV 场景和天气条件的同时,泛化到未见过的类别。

方法详解

整体框架

EDA-PSeg 基于 DAFormer 架构,使用 MiT-B5 编码器-解码器网络作为骨干。输入源域(针孔图像)和目标域(全景图像)经随机裁剪后送入网络提取特征,随后依次经过:

  • 欧拉-边际注意力(EMA):将特征投影到复数向量空间的角度感知嵌入,通过角度边际约束缓解跨视图几何畸变,并通过幅值和相位调制增强已知/未知类别分离性。
  • 图匹配适配器(GMA):构建高阶语义图关系,对齐跨域共享类别的图节点,同时通过正则化将未知类别分离。

关键设计

1. 图匹配适配器(GMA)

  • 节点采样:基于置信度、熵和原型距离进行局部节点采样,选取代表局部语义的节点,再聚合为类级全局原型。对已知类别以置信度 \(\tau_p\) 和熵 \(\tau_e\) 阈值筛选正/负样本集;对未知类别以中位熵 \(\tau_m\) 分割正/负样本。保留最近 K 个节点并通过 EMA 更新全局记忆库 \(\mathcal{M}\)
  • 图生成:识别源域和目标域共享类别,用记忆库 \(\mathcal{M}\) 补全缺失类别节点(添加高斯噪声),通过多头自注意力更新节点集合,生成节点特征和边亲和度矩阵构成语义图。
  • 图匹配与正则化:使用 Sinkhorn 算法计算节点匹配矩阵,构建忽略未知类的开放集匹配标签。损失函数包含三项——图匹配损失(节点对齐)、图边亲和度损失(结构一致性)、未知类正则化损失(已知/未知节点 Frobenius 范数惩罚)。

2. 欧拉-边际注意力(EMA)

  • 欧拉-边际投影:对输入特征做通道降序重排(软置换矩阵保证梯度回传),将重排后的偶数/奇数通道分别作为实部和虚部,通过欧拉公式 \(\mathcal{F}(\mathbf{V}) = \Lambda \cdot e^{i\theta}\) 投影到复数空间。通道重排约束了相位角 \(\theta\) 的范围,增强同类内聚性以缓解跨视角差异。
  • 幅值与相位调制:在自注意力点积中引入可学习参数:\(\delta_1\)(指数幅值缩放)调节特征重要性,\(\delta_2\)(相位缩放因子)和 \(b\)(相位偏置)调节语义方向,最终注意力分数为 \(\mathcal{E}_{\text{Euler}} = (e^{2\delta_1}(\Lambda_q \odot \Lambda_k))^\top \text{Re}[\exp(i[\delta_2(\theta_q - \theta_k) + b])]\)

损失函数/训练策略

总训练目标:\(\mathcal{L}_{\text{total}} = \ell_{\text{seg}} + \ell_{\text{mixup}} + \gamma \cdot \ell_{\text{graph}}\)

  • \(\ell_{\text{seg}}\):源域有监督分割损失
  • \(\ell_{\text{mixup}}\):源域-目标域混合训练的伪标签损失
  • \(\ell_{\text{graph}}\):GMA 模块的图匹配损失(含节点匹配、边亲和度和未知类正则化三项)
  • 权重 \(\gamma = 0.1\)(平衡 common/private 类性能)
  • 使用 MobileSAM 进行目标域伪标签掩码精炼
  • 训练 40k 迭代,512×512 随机裁剪,测试时使用原始全景分辨率

实验关键数据

主实验

四个基准的开放集域自适应结果(mIoU %):

基准设定 类型 Common Private H-Score
C2D (Cityscapes→DensePASS) Pin2Pan, Real2Real 56.81 18.86 28.32
S2D (SynPASS→DensePASS) Syn2Real, Pan2Pan 35.07 7.48 12.33
G2S (GTA→SynPASS) Pin2Pan + Weather 44.96 10.20 16.63
S2A (SynPASS→ACDC) Syn2Real + Weather 30.17 9.18 14.08

与最佳基线对比(C2D 基准):

方法 Common Private H-Score
HRDA 53.42 0.00 0.00
BUS (SAM) 49.47 3.10 5.84
EDA-PSeg (Ours) 56.81 18.86 28.32

闭集方法(DAFormer/HRDA/MIC)Private mIoU 均为 0,完全无法识别未知类别。

消融实验

模块消融(C2D):

GMA EMA Common Private H-Score
52.56 8.57 14.74
55.15 14.67 23.18
56.12 13.00 21.11
56.81 18.86 28.32

EMA 与其他注意力对比(C2D):

方法 Common Private H-Score
Self-Attention 55.45 10.95 18.28
EulerFormer 55.09 7.20 12.74
Deformable MLP 55.89 7.68 13.51
Euler-Margin (Ours) 56.12 13.00 21.11

GMA 损失组件消融:去掉图匹配项性能下降最大(H-Score 23.18→8.73),未知类正则化对 Private mIoU 有显著提升(7.78→14.67)。

关键发现

  1. 闭集方法在开放集设定下完全失效:所有闭集 UDA 方法 Private mIoU 为 0,H-Score 为 0,无法识别任何未知类别。
  2. GMA 和 EMA 互补:GMA 主要提升 Private 类识别(+6.10),EMA 主要提升 Common 类表示(+3.56),两者结合 H-Score 从 14.74 提升至 28.32。
  3. 图匹配是 GMA 的核心:在 GMA 三个损失项中,图匹配项贡献最大,去掉后 H-Score 从 23.18 骤降至 8.73。
  4. 权重敏感性\(\gamma\) 过大(1.0)有利于 Private 但损害 Common,过小(0.01)则相反,\(\gamma=0.1\) 为最佳平衡点。

亮点与洞察

  • 首创开放集全景分割问题定义:将 FoV 几何转换和未知类别发现统一建模,比传统闭集 CPS 更贴近真实场景。
  • 欧拉公式的巧妙应用:利用复数空间的幅值-相位分解,幅值编码特征重要性、相位编码语义方向,通道排序约束角度范围实现视角不变性。
  • 图匹配替代像素原型:高阶图关系建模比传统像素级原型对齐更鲁棒,能同时处理节点匹配和结构一致性。
  • 全面的基准覆盖:涵盖 Pin↔Pan、Syn→Real、多天气条件等多种域迁移场景,并系统比较了闭集/开放集方法。

局限性

  • 随机裁剪引入采样敏感性,偶尔导致训练不稳定。
  • 图匹配增加模型参数和计算开销,EMA 也增加架构复杂度。
  • 在部分细粒度类别(如 Traffic Light、Traffic Sign)上改善有限,某些基准上接近 0 mIoU。
  • S2D 和 S2A 基准上 Private mIoU 绝对值仍较低(7-9%),开放集发现能力有待进一步提升。

相关工作

  • 跨域全景分割:CFA(畸变感知注意力)、DPPASS(切向投影)、Trans4PASS(可变形补丁嵌入)、OmniSAM/GoodSAM(SAM辅助对齐)
  • 开放集域自适应:BUS(SAM掩码+原型匹配)、UniMAP(原型权重缩放)、OSBP/UAN/UniOT(传统 OSDA)
  • 位置编码:RoPE(旋转位置编码)、EulerFormer(欧拉空间统一语义-位置表示)
  • 图匹配:跨域命名实体识别、医学图像分析、目标检测中的图关系推理

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次定义开放集全景分割问题,EMA 和 GMA 设计有创意
  • 实验充分度: ⭐⭐⭐⭐ — 四个基准、多场景覆盖、详细消融,但部分类别绝对性能仍低
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰、方法表述系统,公式较多但逻辑连贯
  • 价值: ⭐⭐⭐⭐ — 填补了开放集全景分割的空白,方法具有实际意义