Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots¶

会议: CVPR2025
arXiv: 2603.13108
代码: PanoMMOcc (待开源)
领域: autonomous_driving
关键词: occupancy prediction, panoramic perception, multimodal fusion, quadruped robot, 3D scene understanding

一句话总结¶

首个面向四足机器人的全景多模态语义占用预测框架 VoxelHound，提出 PanoMMOcc 数据集（全景 RGB + 热成像 + 偏振 + LiDAR），通过垂直抖动补偿（VJC）和多模态信息提示融合（MIPF）模块达到 23.34% mIoU。

研究背景与动机¶

全景相机提供 360° 无盲区视觉覆盖，对移动机器人感知至关重要，但现有占用预测方法主要面向轮式自动驾驶平台
四足机器人相比轮式平台具有低传感器视点、频繁自遮挡和步态引起的强烈自运动等独特挑战
仅依赖 RGB 模态在光照变化、低纹理区域和远距离感知场景下鲁棒性不足
现有全景数据集主要聚焦 2D 视觉任务（检测/分割），缺乏 3D 占用标注
现有占用基准数据集（SemanticKITTI、Occ3D 等）为自动驾驶设计，不考虑全景成像或四足平台
缺少一个同时包含全景、热成像、偏振和 LiDAR 四种模态的真实四足机器人数据集

方法详解¶

整体框架¶

VoxelHound 是一个全景多模态语义占用预测框架。给定全景 RGB 图像、热图像、偏振图像和 LiDAR 点云，通过各自编码器提取特征，统一投影到 BEV 空间进行跨模态融合，最终由占用头恢复高度维度生成 3D 语义占用预测 \(\mathbf{O} \in \mathbb{R}^{X \times Y \times Z}\)。

关键设计¶

1. 多模态融合网络 - Camera 分支：三个图像模态（全景 RGB、热成像、偏振）分别由独立 2D backbone 提取多尺度特征（1/8, 1/16, 1/32），经 FPN 聚合后通过 2D→BEV 视角变换投影到 BEV 空间 - LiDAR 分支：点云体素化（每个体素最多 10 个点取均值），通过稀疏 3D 卷积编码器（stride 8）提取层级几何特征，splat 到 BEV 空间 - 融合分支：多模态 BEV 特征通过融合模块聚合，经 SECOND-FPN BEV 编码器精化，占用头 reshape 通道维为垂直 bin

2. 垂直抖动补偿（VJC）模块 - 针对四足步态导致的垂直方向图像抖动 - 沿宽度维度平均池化得到垂直结构信息 \(\mathbf{F}_v \in \mathbb{R}^{C \times H}\) - 两层 Conv1D + ReLU 编码，自适应平均池化 + 线性层估计全局垂直偏移 \(\Delta h\) - 构建偏移采样网格 \(\mathcal{G}(h,w) = \mathcal{G}_0(h,w) + (0, \Delta h)\)，双线性网格采样补偿 - 插入在图像编码器和 BEV 视角变换之间，轻量且即插即用

3. 多模态信息提示融合（MIPF）模块 - 非对称融合原则：几何主导 + 语义补充 - 各模态 1×1 卷积投影到共享嵌入空间 - 图像模态通过 GAP + MLP 压缩为模态级语义 prompt \(\mathbf{p}_m\) - LiDAR BEV 特征作为 query，prompt 栈作为 key/value 做几何引导注意力 - 残差调制：\(\mathbf{F}_f = \tilde{\mathbf{F}}_l + \sigma(\gamma(\mathbf{F}_{attn})) \odot \tilde{\mathbf{F}}_l\)，确保几何结构不被覆盖

损失函数¶

标准语义占用预测损失（交叉熵 + Lovász-softmax），沿用 EFFOcc 框架设定。

实验关键数据¶

PanoMMOcc 数据集统计¶

属性	数值
序列数	54 (42 标注)
总帧数	21,600
模态	全景 RGB + LiDAR + 热成像 + 偏振
体素分辨率	64×64×16, 每个 0.4m³
类别数	12
平台	Unitree Go2 四足机器人

主实验表（mIoU on PanoMMOcc）¶

方法	模态	mIoU
MonoScene	C	8.94
EFFOcc-C	C	4.47
EFFOcc-L	L	18.77
EFFOcc-T	C+L	19.18
VoxelHound	C	5.79
VoxelHound	C+T+P	6.14
VoxelHound	C+L	22.87
VoxelHound	C+L+T+P	23.34 (+4.16%)

关键发现¶

四模态融合（C+L+T+P）比双模态（C+L）提升约 0.5 mIoU，个别类别（terrain +2.13, mannade +2.18）提升显著
LiDAR 是占用预测的关键模态，纯 Camera 方法在全景场景下性能有限
VJC 有效缓解步态引起的 BEV 特征错位
MIPF 非对称设计优于简单拼接/加法/对称注意力

亮点与洞察¶

首创性：首个面向四足机器人的全景多模态占用数据集和方法，填补具身智能占用预测空白
四模态互补设计：热成像增强低光照鲁棒性，偏振揭示材料线索，LiDAR 提供精确几何，全景 RGB 提供丰富语义
VJC 模块轻量实用：用 1D 卷积估计全局垂直偏移，无需显式 IMU 即可补偿步态抖动
MIPF 非对称融合：以 LiDAR 几何为锚，用 prompt 机制避免密集跨模态注意力的高计算代价

局限性¶

mIoU 绝对值低（23.34%），pedestrian 和 pillar 类别预测接近 0，长尾问题严重
数据集规模较小（21.6K 帧），场景多样性有限
全景 ERP 畸变对 2D→BEV 变换质量的影响未深入分析
四足低视点限制远距离感知，未讨论感知范围瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ (首个四足全景多模态占用数据集+框架)
实验充分度: ⭐⭐⭐ (数据集规模有限，消融可更详细)
写作质量: ⭐⭐⭐⭐ (结构清晰，数据集描述详尽)
价值: ⭐⭐⭐⭐ (填补具身智能占用预测空白)