跳转至

O3N: Omnidirectional Open-Vocabulary Occupancy Prediction

会议: CVPR 2026 arXiv: 2603.12144 代码: GitHub (即将开源) 领域: 自动驾驶 关键词: 全向感知, 开放词汇, 占用预测, 全景图像, Mamba

一句话总结

O3N 首次提出全向开放词汇占用预测任务,设计纯视觉端到端框架:Polar-spiral Mamba (PsM) 在极坐标空间以螺旋扫描建模全景几何连续性;Occupancy Cost Aggregation (OCA) 构建 voxel-text 匹配代价体积避免直接特征对齐的过拟合;Natural Modality Alignment (NMA) 通过无梯度随机游走对齐 pixel-voxel-text 三模态嵌入。在 QuadOcc 上达 16.54 mIoU / 21.16 Novel mIoU(SOTA),大幅超越 OVO 基线。

研究背景与动机

  1. 领域趋势:全向图像(360° 全景)在自动驾驶和具身智能中不可或缺,提供完整空间覆盖和语义连续性。3D 语义占用预测将 2D 视觉提升到 3D 空间,是精确空间推理的基础。

  2. 现有方法的双重局限

  3. 视角限制:现有占用预测方法大多依赖多视图环视相机(如 nuScenes 6 相机),不适用于使用单个全景相机的机器人和具身智能体
  4. 封闭词汇:现有方法只能识别训练时预定义的语义类别,无法泛化到开放世界的未知物体(如将箱子误分类为道路、将狗误分类为自行车)

  5. 全景图像的特殊挑战:等距矩形投影 (ERP) 引入严重几何畸变——远离视点的区域在图像中占比越来越小(latitude distortion + extension distortion),导致:(a) 像素-体素映射不均匀;(b) 简单的三模态特征对齐策略容易过拟合到可见语义,misalign 新类语义

  6. 本文贡献:首次定义全向开放词汇占用预测任务——输入单张全景 RGB + 任意类名文本 → 输出 3D 语义占用(含未见类别),并提出首个纯视觉端到端框架 O3N。

方法详解

整体框架

输入:等距矩形投影全景图 → CLIP 视觉编码器提取图像特征 + CLIP 文本编码器提取类名嵌入 → 2D-to-3D 视角变换(生成立方体和圆柱体双体素表示)→ 3D 解码器(集成 PsM)→ OCA + NMA 模块 → 占用预测头输出 voxel 级语义标签。

关键创新:三个模块分别解决全景几何建模(PsM)、开放词汇语义学习(OCA)、跨模态对齐(NMA)三大挑战。

关键设计

  1. Polar-spiral Mamba (PsM) 模块
  2. 做什么:在极坐标空间中高效建模全向 3D 体素特征,保持空间连续性
  3. 核心问题:圆柱体素在极坐标角度划分处存在数据不连续性(极点附近尤为明显),标准 3D 卷积无法适应,Transformer 计算成本过高
  4. 设计方案:双分支架构——
    • 极坐标分支:圆柱体素 \(\mathbf{V}_p \in \mathbb{R}^{C \times R \times P \times Z}\) 压缩为 BEV 特征 \(\mathbf{B}_p \in \mathbb{R}^{C \times R \times P}\),然后用 P-SMamba 螺旋扫描——从极点出发、半径逐渐增大的螺旋路径,天然匹配全景成像"近密远疏"的信息密度分布
    • 笛卡尔分支:立方体素 \(\mathbf{V}_c \in \mathbb{R}^{C \times H \times W \times D}\)
    • 跨坐标聚合:利用预计算的极坐标-笛卡尔投影关系重采样并融合:\(\mathbf{V}_f^i = \mathbf{V}_c^i + \Phi_{\rho(c)}(\mathbf{V}_p^i)\)
  5. 优势:Spatial-Mamba 提供 Transformer 级长程建模能力,但只有线性复杂度;螺旋扫描路径保证极点区域的空间连续性

  6. Occupancy Cost Aggregation (OCA)

  7. 做什么:构建体素-文本匹配代价体积,替代直接特征对齐,缓解开放词汇下的过拟合
  8. 核心思路:类比 2D 开放词汇分割中的 image-text matching cost,定义占用代价 \(C(i,l) = \frac{V_i \cdot T_l}{\|V_i\| \|T_l\|}\)(体素嵌入和文本嵌入的 cosine 相似度)→ 3D 卷积提取初始代价嵌入 → ASPP 空间聚合(多尺度感受野)→ Linear Transformer 类间聚合 → 残差预测
  9. Scene Affinity Loss \(\mathcal{L}_{oca}\):不用简单交叉熵(会导致孤立的体素语义映射),而用 Precision + Recall + Specificity 同时度量同类和异类体素关系,增强泛化性
  10. 训练时仅在 base class 体素上计算 \(\mathcal{L}_{oca}\)

  11. Natural Modality Alignment (NMA)

  12. 做什么:无梯度地对齐文本嵌入和语义原型,缩小 CLIP 固有的 image-text domain gap
  13. 核心问题:CLIP 尽管经过海量预训练,image 和 text 嵌入之间仍存在模态鸿沟,全景投影误差进一步加剧;直接用可学习策略会过拟合到 base class 分布
  14. 设计方案:无梯度 Random Walk 迭代对齐——
    • EMA 更新 base class 语义原型:\(\mathbf{P}_t^b = \alpha \cdot \mathbf{P}_{t-1}^b + (1-\alpha) \cdot \bar{\mathbf{f}}_{seg}\)
    • 计算文本-原型 affinity \(\mathcal{S} = \lambda \frac{\mathbf{T}_t^0 \cdot \mathbf{P}_t^0}{\|\mathbf{T}_t^0\| \|\mathbf{P}_t^0\|}\)
    • 用 Random Walk 交替更新原型和文本嵌入至收敛:\(\mathbf{T}_t^\infty = (1-\beta)(\mathbf{I} - \beta^2 \mathcal{A})^{-1}(\beta \mathcal{S} \mathbf{P}_t^0 + \mathbf{T}_t^0)\)
  15. 关键细节:还引入 novel class 的可学习原型(隐式捕捉未见语义);整个过程无梯度回传,避免对训练分布过拟合

损失函数 / 训练策略

  • 总损失\(\mathcal{L} = \mathcal{L}_{occ} + \mathcal{L}_{vox-pix} + \mathcal{L}_{oca}\)
  • \(\mathcal{L}_{occ}\):交叉熵 + geometric/semantic scene-class affinity loss + focal point loss(MonoScene 标准损失)
  • \(\mathcal{L}_{vox-pix}\):体素-像素特征对齐损失(来自 OVO)
  • \(\mathcal{L}_{oca}\):scene affinity loss(仅 base class 体素)
  • 推理策略:base class 用占用预测头直接预测;novel class 用蒸馏模块的体素嵌入 \(\mathbf{V}\) 与 novel class 文本嵌入的相似度 + OCA 预测概率组合
  • 训练配置:MonoScene 为主体网络,25 epochs,4×RTX3090,batch=4

实验关键数据

主实验(QuadOcc 验证集)

方法 类型 mIoU Novel mIoU Base mIoU
MonoScene (全监督) Camera 19.19 25.56 12.82
OneOcc (全监督) Camera 20.56 27.53 13.59
OVO (开放词汇) Camera 14.33 18.15 10.52
O3N (开放词汇) Camera 16.54 21.16 11.92
  • O3N 超越 OVO +2.21 mIoU / +3.01 Novel mIoU
  • O3N 的 Novel mIoU (21.16) 超越多个全监督方法(SSCNet 20.13、OccFormer 20.04、VoxFormer-S 14.54)
  • 在 SGN-S backbone 上也带来一致增益(13.81→15.52 mIoU),证明框架通用性

消融实验

配置 Novel mIoU Base mIoU mIoU FPS 显存(GB)
Baseline(无三模块) 18.06 10.90 14.48 10.67 4.28
+ PsM 18.59 (+0.53) 11.05 14.82 9.98 4.31
+ PsM + OCA 19.78 (+1.72) 11.02 15.40 9.71 4.86
+ PsM + OCA + NMA 21.16 (+3.10) 11.92 16.54 9.41 4.97

关键发现

  • PsM:极坐标螺旋扫描带来 +0.53 Novel mIoU,几乎无显存开销(+0.03GB),线性复杂度
  • OCA:代价体积聚合是性能主力,+1.72 Novel mIoU,显著减少开放词汇下的过拟合
  • NMA:无梯度对齐进一步释放 +1.38 Novel mIoU,证明缩小模态鸿沟的重要性
  • 效率可接受:完整 O3N 仍保持 9.41 FPS / 4.97GB 显存,支持准实时推理
  • H3O 数据集:在人视角模拟数据集上也取得一致提升(23.39→24.25 mIoU)

亮点与洞察

  • 任务定义的先驱性:首次提出全向开放词汇占用预测任务,为具身智能和机器人感知提供新研究方向
  • 极坐标螺旋扫描的几何洞察:P-SMamba 的螺旋路径设计精准匹配全景成像的信息密度分布规律——近处密集、远处稀疏,这是针对 ERP 畸变的优雅解决方案
  • 无梯度对齐避免过拟合:NMA 用 Random Walk + Neumann 级数闭合解的方式对齐模态嵌入,既有理论保证(收敛性)又避免了学习过程中对 base class 的过拟合
  • 模块化和通用性:O3N 可插入 MonoScene、SGN 等不同占用网络,不依赖特定架构

局限性 / 可改进方向

  • 场景规模有限:QuadOcc 仅 6 个语义类、H3O 10 个类,开放词汇的真正挑战(几十到上百类)未测试
  • Novel class 占比极高:QuadOcc 中 vehicle/road/building 占 ~68% 体素,H3O 中 novel class 占 ~75%——novel class 其实涵盖了大部分场景,泛化难度相对可控
  • 全景 baseline 较弱:对比的 MonoScene、SGN 等都是相对早期的架构,缺乏与更强 occupancy 方法(如 SurroundOcc、GaussianFormer)的比较
  • 仅单帧输入:未利用时序信息,多帧全景输入可能大幅提升效果
  • 改进方向:(a) 扩展到更大规模语义词汇和真实室外场景;(b) 引入时序建模;(c) 与 LLM 结合实现交互式场景理解

相关工作与启发

  • vs OVO:OVO 是开放词汇占用预测的先驱,用冻结 2D 分割器 + CLIP 蒸馏;O3N 在此基础上增加 OCA(代价体积)和 NMA(无梯度对齐),分别针对过拟合和模态鸿沟
  • vs OneOcc:OneOcc 实现了纯视觉全景占用预测但是封闭词汇;O3N 在其基础上扩展到开放词汇
  • vs CAT-Seg (2D):OCA 的代价聚合思想借鉴自 2D 开放词汇分割中的 image-text matching cost;O3N 将其扩展到 3D 体素空间
  • 启发:极坐标表示 + 螺旋扫描的思路可推广到其他全景任务(如全景深度估计、全景检测);无梯度对齐策略对其他存在 domain gap 的开放词汇任务也有参考价值

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次定义全向开放词汇占用预测任务,三个模块各有明确的设计洞察
  • 实验充分度: ⭐⭐⭐⭐ 双数据集 + 双 backbone + 充分消融,但 benchmark 规模偏小
  • 写作质量: ⭐⭐⭐⭐ 公式推导清晰(NMA 的 Neumann 级数),方法图详尽
  • 价值: ⭐⭐⭐⭐ 为具身智能和全景感知开辟新任务和新方法,方向正确且有实际意义