O3N: Omnidirectional Open-Vocabulary Occupancy Prediction¶

会议: CVPR 2025
arXiv: 2603.12144
代码: 即将开源
领域: 自动驾驶 / 3D占用预测
关键词: 全向视觉, 开放词汇, 占用预测, Mamba, 极坐标螺旋, 模态对齐

一句话总结¶

O3N 首次提出纯视觉端到端的全向开放词汇占用预测框架，通过极坐标螺旋 Mamba（PsM）建模全向空间连续性、占用代价聚合（OCA）统一几何和语义监督、以及无梯度自然模态对齐（NMA）桥接像素-体素-文本模态间隙，在 QuadOcc 和 Human360Occ 上达到 SOTA。

研究背景与动机¶

领域现状：3D 语义占用预测从 2D 视觉证据推断密集体素语义，已从多视角相机方案（SurroundOcc, TPVFormer）扩展到全向图像（OneOcc）。但现有方法限于预定义类别的闭集设定。
现有痛点：(1) 闭集模型无法识别训练分布外的未知物体，面对开放世界探索时受限；(2) 全向图像（等距矩形投影 ERP）存在严重几何畸变和非均匀采样，远处区域占像素比例极小。
核心矛盾：ERP 投影的非均匀性加剧了"像素-体素-文本"三元对齐中的过拟合风险——部分可见语义在不均匀数据分布下导致联合嵌入空间中新语义的错误对齐。
本文要解决什么？ 如何从单张全向图像出发，实现对训练时未见类别也能准确预测的开放词汇 3D 占用预测？
切入角度：(a) 全向图像的极坐标性质需要与之匹配的空间扫描策略（极坐标螺旋而非方阵栅格）；(b) 构建"占用代价体"替代直接体素-文本对齐来缓解过拟合；(c) 用无梯度的 Random Walk 对齐文本嵌入和语义原型。
核心idea一句话：极坐标螺旋 Mamba + 占用代价聚合 + 无梯度模态对齐 = 全向开放词汇 3D 占用。

方法详解¶

整体框架¶

等距矩形全向图像 → 语言-图像编码器提取图像特征+文本嵌入 → 2D→3D 视图变换生成立方体+柱坐标体素 → PsM 增强的 3D 解码器 → OCA 构建体素-文本代价体 + NMA 对齐 → 占用预测头。端到端训练。

关键设计¶

Polar-spiral Mamba (PsM) 模块
做什么：用双分支架构有效建模全向图像的空间结构
核心思路：柱坐标体素压缩为 BEV \(\mathbf{B}_p \in \mathbb{R}^{C \times R \times P}\) → P-SMamba 沿极坐标从极点向外螺旋扫描（近→远，符合全向成像的信息密度递减特性）→ 每层将极坐标体素重采样到笛卡尔空间与立方体体素聚合
设计动机：标准 3D 卷积无法适应柱坐标数据在极点附近的不连续性；螺旋扫描路径从近到远渐进捕捉几何和语义细节，符合全向成像"近处信息密、远处信息稀"的特性
Occupancy Cost Aggregation (OCA)
做什么：构建体素-文本代价体进行空间和类别聚合，替代简单特征对齐
核心思路：占用代价 \(C(i,l) = \frac{V_i \cdot T_l}{\|V_i\| \|T_l\|}\) → 3D 卷积初始处理 → ASPP 多尺度空间聚合 → 线性 Transformer 类间聚合 → 残差连接后送入预测头
设计动机：直接体素-文本特征对齐容易在不均匀数据分布下过拟合（部分可见语义 → 联合嵌入空间偏斜）；代价体的精细空间+类别聚合更鲁棒
Natural Modality Alignment (NMA)
做什么：无梯度地缩小文本嵌入和语义原型之间的模态间隙
核心思路：用 EMA 更新基类语义原型 \(\mathbf{P}_t^b\) → 计算文本-原型亲和度 \(\mathcal{S}\) → Random Walk 迭代聚合（Neumann 级数闭式解 \(\mathbf{T}_t^\infty\)）→ 优化后文本嵌入用于 OCA
设计动机：CLIP 的图像-文本嵌入仍存在模态间隙；学习式对齐会对基类过拟合而损害新类泛化；无梯度的 Random Walk 收敛方案避免此问题

损失函数 / 训练策略¶

\(\mathcal{L} = \mathcal{L}_{occ} + \mathcal{L}_{vox\text{-}pix} + \mathcal{L}_{oca}\)。\(\mathcal{L}_{occ}\) 包含交叉熵 + 场景亲和损失 + 焦点损失；\(\mathcal{L}_{vox\text{-}pix}\) 对齐体素和像素特征（来自 OVO）；\(\mathcal{L}_{oca}\) 使用场景亲和损失约束代价聚合。新类体素训练时统一为"unknown"类。

实验关键数据¶

主实验（QuadOcc）¶

方法	输入	mIoU	Novel mIoU	Base mIoU
OVO (MonoScene)	C	14.33	18.15	10.52
O3N (MonoScene)	C	16.54	21.16	11.92
提升	—	+2.21	+3.01	+1.40

Human360Occ¶

方法	mIoU	Novel mIoU	Base mIoU
OVO	baseline	baseline	baseline
O3N	+0.86	+1.54	+提升

消融实验¶

配置	关键指标	说明
w/o PsM	mIoU 下降	失去极坐标空间建模能力
w/o OCA	Novel mIoU 显著下降	直接对齐导致新类过拟合
w/o NMA	Novel mIoU 下降	模态间隙影响新类泛化
Full O3N	最优	三组件协同

关键发现¶

O3N 不仅开放词汇性能最好，甚至在某些设置下超越部分全监督方法——说明开放词汇训练的正则化效果
Novel mIoU 提升（+3.01）远大于 Base mIoU 提升（+1.40），验证了 OCA 和 NMA 对新类语义的特殊增强作用
新类（vehicle, road, building）占 QuadOcc 数据的 ~68%，说明方法在主导类上也表现良好
跨模型验证（MonoScene 和 SGN）证明了 O3N 的通用性

亮点与洞察¶

首个全向开放词汇占用预测框架：填补了全向视觉 + 开放词汇 + 3D 占用交叉领域的空白
极坐标螺旋扫描的直觉设计：扫描路径自然匹配全向成像的信息密度分布——简单但有效的几何感知设计
无梯度 NMA 的理论优雅性：基于 Neumann 级数的闭式解避免了迭代对齐中的梯度传播问题，理论上保证收敛
占用代价体替代直接对齐：借鉴 2D 开放词汇分割中的 cost aggregation 思想扩展到 3D——思路可迁移到其他 3D 开放词汇任务

局限性 / 可改进方向¶

基础模型 MonoScene 较旧，性能天花板受限——在更强的全监督骨干上可能有更大提升空间
全向图像的极点区域重建质量仍较低（受 ERP 投影固有限制）
CLIP 文本编码器对细粒度驾驶语义（如"虚线车道标记" vs "实线车道标记"）的区分能力可能不足
仅在室内/校园（QuadOcc）和仿真（Human360Occ）数据上验证，缺少大规模户外场景验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 开创全向+开放词汇+占用预测的交叉方向，PsM 和 NMA 设计新颖
实验充分度: ⭐⭐⭐⭐ 双数据集+多模型验证+消融，但缺少大规模户外数据
写作质量: ⭐⭐⭐⭐ 数学推导严谨，框架图清晰，整体结构完整
价值: ⭐⭐⭐⭐⭐ 为具身智能的开放世界 3D 场景理解提供了重要的技术路径