Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots¶
会议: CVPR2026 arXiv: 2603.13108 代码: PanoMMOcc (即将公开) 领域: autonomous_driving 关键词: 全景占据预测, 多模态融合, 四足机器人, 语义占据, BEV感知
一句话总结¶
提出首个面向四足机器人的全景多模态语义占据预测数据集 PanoMMOcc 及框架 VoxelHound,通过垂直抖动补偿(VJC)和多模态信息提示融合(MIPF)模块,在全景 RGB+热成像+偏振+LiDAR 四模态下达到 23.34% mIoU,超越已有方法 +4.16%。
背景与动机¶
- 全景感知需求:全景图像提供 360° 无盲区视觉覆盖,对动态非结构化场景中的移动智能体至关重要,但现有占据预测方法主要面向自动驾驶的多目标窄 FoV 相机
- 四足平台挑战:四足机器人相比轮式平台存在低视角、频繁自遮挡、步态动力学导致的强烈自运动等固有挑战,现有方法未考虑这些特殊性
- 单一 RGB 局限:仅依赖 RGB 模态在光照变化、低纹理区域和远距离感知场景下鲁棒性不足,需要多模态传感融合
- 数据集缺口:现有全景数据集聚焦 2D 视觉任务缺乏 3D 占据标注;现有占据基准面向自动驾驶场景,未涉及全景成像或四足平台
- 融合策略不足:现有多模态融合常用简单拼接/加法,对异构传感器贡献无差别对待,导致几何一致性被稀释、模态间干扰
- 步态抖动问题:四足行走引起垂直方向的体态振荡,导致采集图像的空间特征错位,降低 BEV 变换的稳定性
方法详解¶
整体框架 VoxelHound¶
输入四种模态:全景 RGB 图像 \(\mathcal{I}^{pal}\)、热成像 \(\mathcal{I}^{th}\)、偏振图像 \(\mathcal{I}^{pol}\)、LiDAR 点云 \(\mathcal{P}\)。各模态经独立编码器提取特征,投影到 BEV 空间进行统一融合,最终输出 \(\mathbf{O} \in \mathbb{R}^{X \times Y \times Z}\) 的三维语义占据预测。
多模态融合网络¶
- Camera 分支:三种图像模态各经 ResNet-18 提取多尺度特征,FPN 聚合后通过 2D→BEV 视角变换得到各模态 BEV 特征 \(\mathbf{F}_c^m \in \mathbb{R}^{C_m \times H \times W}\)
- LiDAR 分支:点云体素化后经稀疏 3D 卷积(stride=8)提取层级几何特征,压扁为 BEV 特征 \(\mathbf{F}_l \in \mathbb{R}^{C_l \times H \times W}\)
- Fusion 分支:融合后经 SECOND-FPN BEV 编码器增强多尺度空间表示,占据头将 BEV 通道 reshape 为垂直 bin,输出 64×64×16 的体素预测
垂直抖动补偿模块(VJC)¶
插入在图像编码器与 BEV 视角变换之间: 1. 沿宽度维度均值池化获取垂直结构 \(\mathbf{F}_v \in \mathbb{R}^{C \times H}\) 2. 两层 Conv1D + ReLU 编码垂直特征 3. 自适应平均池化 + 线性层预测全局垂直偏移量 \(\Delta h\) 4. 归一化为网格坐标偏移,构造位移采样网格 5. 双线性网格采样得到补偿后特征 \(\mathbf{F}_{comp}\)
多模态信息提示融合模块(MIPF)¶
采用"几何主导+语义补充"的非对称融合原则: 1. 各模态经 1×1 卷积投影到共享嵌入空间 2. 对图像模态全局平均池化 + MLP 生成紧凑语义提示 \(\mathbf{p}_m\) 3. LiDAR BEV 特征作为 Query,模态提示作为 Key/Value 进行提示注意力 4. 残差调制:\(\mathbf{F}_f = \tilde{\mathbf{F}}_l + \sigma(\gamma(\mathbf{F}_{attn})) \odot \tilde{\mathbf{F}}_l\),确保几何结构为主表示基础
损失函数¶
包含交叉熵损失、Lovász-Softmax 损失、几何/语义亲和力损失。
实验关键数据¶
数据集 PanoMMOcc¶
- 四足机器人 Unitree Go2 搭载全景相机(360°×70° FoV, 2048×2048)、MID360 LiDAR、热成像(640×512)、偏振相机(1224×1024)
- 54 个序列 @10Hz、每序列 40 秒,共 21,600 帧;42 序列标注、12 类语义
- 体素空间: 64×64×16,分辨率 0.4m,空间范围 [-12.8, 12.8]m (xy) × [-2.4, 4.0]m (z)
- 训练 30 序列 / 测试 12 序列,覆盖校园、城市、住宅、绿地、乡村、森林六类场景
主实验结果 (mIoU %)¶
| 方法 | 模态 | mIoU |
|---|---|---|
| MonoScene | C | 8.94 |
| EFFOcc-C | C | 4.47 |
| EFFOcc-L | L | 18.77 |
| EFFOcc-T | C+L | 19.18 |
| C-CONet | C | 3.79 |
| M-CONet | C+L | 4.68 |
| VoxelHound | C | 5.79 |
| VoxelHound | C+T+P | 6.14 |
| VoxelHound | C+L | 22.87 |
| VoxelHound | C+L+T+P | 23.34 |
- 全模态 VoxelHound 超越最强竞争方法 EFFOcc-T +4.16% mIoU
- 相比纯相机 MonoScene +14.40% mIoU
- 热成像+偏振在夜间提升显著:夜间 C→C+T+P mIoU 从 3.52% 升至 4.07%
消融实验¶
| VJC | MIPF | mIoU |
|---|---|---|
| ✗ | ✗ | 22.74 |
| ✓ | ✗ | 22.92 |
| ✗ | ✓ | 23.14 |
| ✓ | ✓ | 23.34 |
- VJC 贡献 +0.18%,MIPF 贡献 +0.40%,二者组合额外 +0.20%
- VJC 最优隐通道维度 \(C_{hd}=64\),MIPF 最优 \(C_{pd}=8, C_{nh}=8\)
亮点¶
- 首创性:首个面向四足机器人的全景多模态占据预测数据集和框架,填补了全景占据+四足平台的空白
- VJC 模块设计精巧:仅通过轻量 1D 卷积估计垂直偏移量进行网格采样补偿,参数开销极小(+0.04M)
- MIPF 非对称融合:将图像模态压缩为紧凑提示避免密集空间交叉注意力,"几何主导+语义补充"的设计符合传感器特性
- 四模态传感:融合全景 RGB、热成像、偏振、LiDAR 四种互补模态,首次引入偏振成像到占据预测任务
局限性 / 可改进方向¶
- 绝对性能仍偏低:最优 mIoU 仅 23.34%,部分类别(bicycle=0.00%, pedestrian=0.00%)完全无法检测,小目标感知严重不足
- VJC 提升有限:单独 VJC 仅带来 +0.18% 提升,对步态抖动的补偿效果有限,可能需要更复杂的时序建模
- 数据规模较小:21.6k 帧的数据量相比 nuScenes 等驾驶数据集偏少,泛化能力有待验证
- 仅评估自建数据集:VoxelHound 未在已有公共占据基准上验证,跨数据集泛化未知
- 夜间全模态反而下降:夜间 C+L+T+P (18.68%) 低于 C+L (19.17%),暗示热/偏振在特定条件下引入噪声
与相关工作的对比¶
- vs MonoScene/EFFOcc/CONet:均为自动驾驶场景设计,使用针孔相机多目方案,不适配全景成像+四足平台的场景;VoxelHound 在四足场景下全模态显著领先
- vs QuadOcc:同为四足平台全景占据数据集,但 QuadOcc 仅含 RGB 单模态、6 类语义、体素 64×64×8;PanoMMOcc 扩展为四模态、12 类、64×64×16
- 现有多模态融合:多数方案用 Camera+LiDAR 简单拼接/对称融合;MIPF 的非对称提示注意力更好利用了模态间互补性
- 全景感知领域:已有工作主要做 2D 语义分割/BEV 映射,本文首次将全景视觉扩展到 3D 占据预测
评分¶
- 新颖性: ⭐⭐⭐⭐ (首个四足全景多模态占据数据集+框架,VJC/MIPF 设计合理)
- 实验充分度: ⭐⭐⭐ (消融完整但绝对性能偏低,缺少跨数据集实验)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,图表丰富)
- 价值: ⭐⭐⭐⭐ (开创四足机器人全景占据方向,数据集和基准有长期价值)