跳转至

Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots

会议: CVPR 2026
arXiv: 2603.13108
代码: https://github.com/SXDR/PanoMMOcc (有)
领域: 3D视觉 / 具身感知 / 多模态融合
关键词: 全景占据预测, 四足机器人, 多模态融合, 垂直抖动补偿, BEV感知

一句话总结

面向四足机器人构建首个全景多模态(RGB+热成像+偏振+LiDAR)语义占据数据集PanoMMOcc,并提出VoxelHound框架,通过垂直抖动补偿(VJC)和多模态信息提示融合(MIPF)模块实现鲁棒的3D占据预测,达到23.34% mIoU(+4.16%)。

背景与动机

3D语义占据预测是连接感知与运动规划的关键中间表示,能统一建模自由空间、占据空间和未知空间。全景相机提供360°无盲区视觉覆盖,非常适合移动机器人。然而,现有占据预测方法和数据集几乎全部面向轮式自动驾驶场景——使用多视角针孔相机和车载LiDAR。四足机器人面临三个独特挑战:(1) 传感器视点低,自遮挡严重;(2) 步态运动引起剧烈的垂直抖动,导致图像模糊和特征错位;(3) 仅依赖RGB在光照变化、低纹理区域和长距离场景下不够鲁棒。因此,需要全景成像+多模态感知的联合方案,但此前不存在这样的数据集和方法。

核心问题

如何在四足机器人平台上,利用全景相机和多种互补传感器(热成像、偏振、LiDAR),克服步态抖动和单一模态局限性,实现准确的3D语义占据预测?这个问题包含三个子问题:(1) 缺少面向四足机器人的全景多模态占据数据集;(2) 步态引起的垂直抖动破坏BEV变换的空间一致性;(3) 异构模态的有效融合策略。

方法详解

整体框架

VoxelHound接受四种模态输入:全景RGB图(PAL相机,360°×70° FoV)、热成像图、偏振图和LiDAR点云。相机分支对三种图像模态分别用ResNet-18提取多尺度特征,经FPN聚合后通过2D到BEV变换投影到鸟瞰空间。LiDAR分支将点云体素化后通过稀疏3D卷积提取特征,压缩到BEV平面。四种模态的BEV特征经融合后送入BEV编码器(SECOND-FPN架构)做上下文建模,最后通过占据头将BEV特征的通道维度reshape为垂直维度,生成64×64×16的3D语义占据预测(12个语义类+空闲类)。

关键设计

  1. 垂直抖动补偿模块(VJC): 四足机器人步态引起身体沿垂直轴振荡,导致采集图像出现垂直方向的系统性偏移。VJC插入在图像编码器和BEV变换之间。具体做法:先对特征图沿宽度维度取均值得到垂直结构特征 \(\mathbf{F}_v \in \mathbb{R}^{C \times H}\),用两层1D卷积+ReLU编码,再通过自适应平均池化+线性层预测全局垂直偏移量 \(\Delta h\),最后构造带偏移的采样网格做双线性插值对齐。整个模块极其轻量(参数和显存几乎可忽略),但能有效补偿步态引起的特征错位。
  2. 多模态信息提示融合模块(MIPF): 传统多模态融合(拼接/相加)对所有模态一视同仁,忽略了LiDAR提供稳定3D几何结构而图像模态主要贡献语义的角色差异。MIPF采用非对称融合原则——几何主导+语义补充。具体做法:先将各模态用1×1卷积投影到共享嵌入空间,然后对每个图像模态的BEV特征做全局平均池化+MLP生成紧凑的语义提示向量 \(\mathbf{p}_m\)。以LiDAR BEV特征为query、语义提示为key/value做注意力交互,得到的结果通过sigmoid门控进行残差调制——即通过提示自适应地重加权LiDAR特征,而非直接覆盖几何结构。这种设计比密集空间交叉注意力高效得多(prompt只有3个token)。

损失函数 / 训练策略

采用综合损失函数:交叉熵损失 \(\mathcal{L}_{ce}\) + Lovász-Softmax损失 \(\mathcal{L}_{ls}\)(处理类别不平衡)+ 几何亲和损失 \(\mathcal{L}_{scal}^{geo}\) + 语义亲和损失 \(\mathcal{L}_{scal}^{sem}\)(鼓励相邻体素的一致性)。使用AdamW优化器,学习率4e-4,权重衰减0.01,训练48个epoch。在4张RTX 3090上训练。

实验关键数据

方法 模态 mIoU
MonoScene C 8.94
EFFOcc-C C 4.47
EFFOcc-L L 18.77
EFFOcc-T (C+L) C+L 19.18
VoxelHound C+L+T+P 23.34
光照条件 模态 mIoU
白天 C+L 22.56
白天 C+L+T+P 23.34
夜晚 C+L 19.17
夜晚 C+L+T+P 18.68

消融实验要点

  • 基线(无VJC无MIPF): 22.74 mIoU
  • +VJC: 22.92(+0.18),验证了抖动补偿的有效性
  • +MIPF: 23.14(+0.40),融合模块贡献更大
  • 两者同时: 23.34(+0.60),两模块互补
  • VJC隐藏通道维度:64最优(23.34),参数增量极小(0.04M)
  • MIPF:提示通道维度8、注意力头数8时最优(23.34)

亮点

  • 首创性:首个面向四足机器人的全景多模态占据数据集,填补重要空白
  • VJC设计简洁有效:用1D卷积估计全局垂直偏移量来补偿步态抖动,思路清晰、计算开销几乎为零
  • MIPF的非对称融合哲学:将图像模态压缩为紧凑prompt而非做密集交叉注意力,既保护了LiDAR几何主体,又引入了语义增强。这个"几何主导、语义补充"的思路可以迁移到其他多模态融合场景
  • 四种传感模态:热成像在低光照下增强鲁棒性,偏振成像揭示材质和弱目标线索——这些非常规模态的引入值得关注
  • 标定工具开源:提供了LiDAR-相机标定工具

局限性 / 可改进方向

  • 数据集规模有限(21.6k帧),远小于大规模自动驾驶数据集(nuScenes 40k、SemanticKITTI 43k),难以训练大模型
  • 体素分辨率0.4m较粗,不适用于需要精细几何的抓取等操作任务
  • 夜间+全模态(18.68 mIoU)反而低于白天+C+L配置(22.56),说明热成像和偏振在夜间的贡献需要更好的融合策略
  • 只覆盖室外场景,缺少室内环境
  • VJC只补偿全局垂直偏移,对旋转和局部形变未建模
  • 主要在自建数据集上验证,缺乏在其他占据benchmark上的泛化性验证

与相关工作的对比

  • vs EFFOcc:现有最接近的baseline。VoxelHound在camera+LiDAR配置上已超越EFFOcc-T 4.16 mIoU,加入热成像和偏振后优势更明显。核心差异在于MIPF的非对称融合策略和VJC的抖动补偿。
  • vs MonoScene:MonoScene是单目相机占据预测方法,在全景场景下只有8.94 mIoU,说明纯视觉方法在四足平台上严重不足(低视点、抖动、光照变化)。
  • vs QuadOcc:同样面向四足机器人但只使用全景RGB,且类别更少(6类),PanoMMOcc在传感模态丰富度和标注完整度上有显著优势。

启发与关联

  • 与开放词汇3D占据idea的关联:PanoMMOcc的12类固定标注限制了泛化能力。结合CLIP做开放词汇占据预测是一个自然的扩展方向(参见ideas/3d_vision/20260316_open_vocab_3d_occupancy.md)
  • 与全景空间推理idea的关联:该数据集的全景+多模态设置可以作为全景空间推理系统的感知基座(参见ideas/segmentation/20260316_panoramic_spatial_reasoning.md)
  • MIPF中"prompt式融合"的设计可推广到其他多模态任务——用轻量prompt代替密集特征交互

评分

  • 新颖性: ⭐⭐⭐⭐ 首个四足机器人全景多模态占据数据集和框架,填补空白
  • 实验充分度: ⭐⭐⭐ 仅在自建数据集上验证,缺乏跨数据集泛化实验
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据集构建细节充分,附录详尽
  • 价值: ⭐⭐⭐⭐ 数据集和标定工具开源对社区有重要价值