跳转至

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

会议: CVPR 2026
arXiv: 2603.12144
代码: https://github.com/MengfeiD/O3N (有)
领域: 3D视觉 / 自动驾驶 / 具身智能
关键词: 全向占用预测, 开放词汇, Mamba, 模态对齐, 全景视觉

一句话总结

提出O3N——首个纯视觉端到端全向开放词汇占用预测框架,通过极坐标螺旋Mamba(PsM)、占用代价聚合(OCA)和无梯度自然模态对齐(NMA)三大模块,在QuadOcc和Human360Occ上实现SOTA。

背景与动机

  • 全向(360°)图像为自动驾驶和具身智能提供完整的场景覆盖,是空间感知的趋势方向
  • 现有3D占用预测方法受限于有限视角输入和预定义训练类别分布,难以应用于需要全面感知开放世界的具身智能体
  • 等距柱面投影(ERP)引入严重的几何畸变和非均匀采样,远离视点的区域在图像中占比极小,加剧了特征对齐中的过拟合风险
  • 文本、像素、体素三种模态之间存在固有的域差距,直接学习容易导致对训练语义的过度依赖

核心问题

如何在全向视觉输入下实现开放词汇的3D语义占用预测,同时解决全景图像的几何畸变、跨模态语义对齐以及对未见类别的泛化问题?

方法详解

整体框架

O3N以等距柱面全向图像为输入,包含四个核心组件:(1) 全向图像视觉特征提取器;(2) 2D到3D视图变换,同时生成立方体和柱坐标体素;(3) 带PsM增强的3D解码器;(4) 占用预测头。通过OCA和NMA实现"像素-体素-文本"三元组的语义一致性。基于MonoScene和SGN两种代表性模型进行验证。

关键设计

  1. 极坐标螺旋Mamba(PsM): 双分支架构。将柱坐标体素压缩为BEV特征后,P-SMamba以从极点向外的螺旋路径扫描极坐标空间,与全向成像从近到远的信息密度变化一致。利用Spatial-Mamba的线性复杂度实现长程建模。每层将极坐标体素重采样到立方体空间,融合两种坐标系的体素特征(V_f = V_c + Φ(V_p)),兼顾近场精度和远场方位连贯性
  2. 占用代价聚合(OCA): 构建体素-文本代价体积(余弦相似度),避免直接离散特征对齐。使用ASPP进行空间聚合(融合不同感受野),线性Transformer进行类别聚合(建模类间关系),再用体素特征和文本嵌入提供上下文引导。使用scene affinity loss(包含Precision/Recall/Specificity项)替代纯交叉熵来保持泛化能力
  3. 自然模态对齐(NMA): 无梯度对齐策略。通过EMA方法维护基类语义原型,利用Random Walk迭代聚合文本嵌入与语义原型。关键公式可化为Neumann级数的闭式解(T_∞ = (1-β)(I-β²A)^(-1)(βSP+T))。此设计解耦了文本分支的训练,避免过拟合训练语义,同时引入可学习的新类原型隐式捕获未见语义

损失函数 / 训练策略

  • 总损失:L = L_occ + L_vox-pix + L_oca
  • L_occ来自MonoScene(交叉熵 + 场景亲和 + 焦点损失等)
  • L_vox-pix来自OVO用于体素-像素特征对齐
  • L_oca使用scene affinity loss进行代价聚合监督
  • 训练25 epoch,4卡RTX 3090,batch size 4
  • 将新类体素统一标注为"未知类",训练时使用L_b+1个语义标签
  • 权重衰减从1e-4调至1e-3以缓解过拟合

实验关键数据

数据集 指标 O3N OVO (baseline) 提升
QuadOcc mIoU 16.54 14.33 +2.21
QuadOcc Novel mIoU 21.16 18.15 +3.01
QuadOcc Base mIoU 11.92 10.52 +1.40
H3O Homo mIoU 24.25 23.39 +0.86
H3O Homo Novel mIoU 15.36 13.82 +1.54
NYUv2 (室内) mIoU 23.21 21.13 +2.08
  • O3N的Novel mIoU (21.16)在QuadOcc上甚至超过了部分全监督方法(SSCNet 20.13, OccFormer 20.04, VoxFormer-S 14.54)
  • 推理效率:9.41 FPS,仅4.97 GB显存,保持良好的实时性能

消融实验要点

  • PsM单独引入: mIoU 14.48→14.82(+0.34),内存开销极小(4.28→4.31 GB)
  • PsM+OCA: mIoU→15.40,Novel mIoU +1.72,OCA对新类贡献显著
  • PsM+OCA+NMA: mIoU→16.54,NMA对弥合模态差距至关重要
  • 柱坐标体素最优分辨率:(R=32, P=90, Z=8),过粗或过密都会降低性能
  • OCA逐步增加组件(基础代价→空间聚合→类别聚合→嵌入引导)均带来稳定提升
  • NMA的随机游走概率β=0.1最优,过大(0.2-0.3)会因扰动过大导致性能严重下降
  • NMA使体素-文本相似度分布更紧凑稳定(集中在0.93-0.97)

亮点

  • 首次定义并解决全向开放词汇占用预测任务,统一了全向视觉和3D语义-几何预测
  • PsM的螺旋扫描策略巧妙地适配了全景图像从近到远的信息密度变化
  • NMA的无梯度对齐设计优雅地规避了跨模态学习中的过拟合问题,Neumann级数闭式解在理论上保证了收敛
  • 框架具有良好的可迁移性,可适配MonoScene和SGN等不同骨干网络
  • 不同FoV下均表现稳健,适用于鱼眼、全景等多种相机配置

局限性 / 可改进方向

  • 依赖CLIP等视觉-语言模型,但面向全向视觉的VLM非常稀缺,2D特征容易产生语义偏移
  • 使用FLoSP进行2D到3D投射,对整体空间深度不敏感,存在空间范围感知偏差
  • 在极端天气(雨天反光、低光照)下性能仍有下降
  • 未来可探索用于全向视觉场景的自监督学习方法来增强语义理解的泛化性
  • 可以考虑引入更先进的深度估计或learnable投射策略来改善空间定位

与相关工作的对比

  • 对比OVO (CVPR 2023): O3N在所有指标上全面超越,核心差异在全向适配(PsM)和更鲁棒的跨模态对齐(OCA+NMA)
  • 对比OneOcc: OneOcc是全监督方法,O3N作为开放词汇方法在QuadOcc上仅落后约4个mIoU点,但可识别任意新类别
  • 对比AGO、PGOcc等近期开放词汇方法: O3N是唯一针对全向输入设计的方案
  • 扩展到NYUv2室内场景也表现出一致的提升,验证了跨场景泛化能力

启发与关联

  • 极坐标螺旋扫描的思想可以推广到其它需要处理非均匀采样的任务(如鱼眼相机、卫星图像等)
  • 无梯度模态对齐(NMA)的设计对其它需要跨模态对齐的开放词汇任务有借鉴意义
  • 将OCA中的代价体积思想从2D分割推广到3D占用预测是一个值得关注的研究方向
  • 全向+开放词汇的组合是具身智能的刚需,这个方向有很大的后续空间

评分

  • 新颖性: ⭐⭐⭐⭐ 首次定义全向开放词汇占用预测任务,PsM/OCA/NMA三个模块各有设计亮点,NMA的理论分析扎实
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集验证(QuadOcc/H3O/NYUv2),详尽的消融实验,FoV鲁棒性分析,失败案例分析,计算效率报告
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法动机阐述充分,数学推导完整,补充材料丰富
  • 价值: ⭐⭐⭐⭐ 为具身智能的场景理解提供了新范式 领域: 3D视觉 / NeRF / 3DGS / 自动驾驶 / 具身智能