Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots¶

会议: CVPR 2026
arXiv: 2603.13108
代码: https://github.com/SXDR/PanoMMOcc (有)
领域: 3D视觉 / 具身感知 / 多模态融合
关键词: 全景占据预测, 四足机器人, 多模态融合, 垂直抖动补偿, BEV感知

一句话总结¶

面向四足机器人构建首个全景多模态（RGB+热成像+偏振+LiDAR）语义占据数据集PanoMMOcc，并提出VoxelHound框架，通过垂直抖动补偿（VJC）和多模态信息提示融合（MIPF）模块实现鲁棒的3D占据预测，达到23.34% mIoU（+4.16%）。

背景与动机¶

3D语义占据预测是连接感知与运动规划的关键中间表示，能统一建模自由空间、占据空间和未知空间。全景相机提供360°无盲区视觉覆盖，非常适合移动机器人。然而，现有占据预测方法和数据集几乎全部面向轮式自动驾驶场景——使用多视角针孔相机和车载LiDAR。四足机器人面临三个独特挑战：(1) 传感器视点低，自遮挡严重；(2) 步态运动引起剧烈的垂直抖动，导致图像模糊和特征错位；(3) 仅依赖RGB在光照变化、低纹理区域和长距离场景下不够鲁棒。因此，需要全景成像+多模态感知的联合方案，但此前不存在这样的数据集和方法。

核心问题¶

如何在四足机器人平台上，利用全景相机和多种互补传感器（热成像、偏振、LiDAR），克服步态抖动和单一模态局限性，实现准确的3D语义占据预测？这个问题包含三个子问题：(1) 缺少面向四足机器人的全景多模态占据数据集；(2) 步态引起的垂直抖动破坏BEV变换的空间一致性；(3) 异构模态的有效融合策略。

方法详解¶

整体框架¶

VoxelHound接受四种模态输入：全景RGB图（PAL相机，360°×70° FoV）、热成像图、偏振图和LiDAR点云。相机分支对三种图像模态分别用ResNet-18提取多尺度特征，经FPN聚合后通过2D到BEV变换投影到鸟瞰空间。LiDAR分支将点云体素化后通过稀疏3D卷积提取特征，压缩到BEV平面。四种模态的BEV特征经融合后送入BEV编码器（SECOND-FPN架构）做上下文建模，最后通过占据头将BEV特征的通道维度reshape为垂直维度，生成64×64×16的3D语义占据预测（12个语义类+空闲类）。

关键设计¶

垂直抖动补偿模块（VJC）: 四足机器人步态引起身体沿垂直轴振荡，导致采集图像出现垂直方向的系统性偏移。VJC插入在图像编码器和BEV变换之间。具体做法：先对特征图沿宽度维度取均值得到垂直结构特征 \(\mathbf{F}_v \in \mathbb{R}^{C \times H}\)，用两层1D卷积+ReLU编码，再通过自适应平均池化+线性层预测全局垂直偏移量 \(\Delta h\)，最后构造带偏移的采样网格做双线性插值对齐。整个模块极其轻量（参数和显存几乎可忽略），但能有效补偿步态引起的特征错位。
多模态信息提示融合模块（MIPF）: 传统多模态融合（拼接/相加）对所有模态一视同仁，忽略了LiDAR提供稳定3D几何结构而图像模态主要贡献语义的角色差异。MIPF采用非对称融合原则——几何主导+语义补充。具体做法：先将各模态用1×1卷积投影到共享嵌入空间，然后对每个图像模态的BEV特征做全局平均池化+MLP生成紧凑的语义提示向量 \(\mathbf{p}_m\)。以LiDAR BEV特征为query、语义提示为key/value做注意力交互，得到的结果通过sigmoid门控进行残差调制——即通过提示自适应地重加权LiDAR特征，而非直接覆盖几何结构。这种设计比密集空间交叉注意力高效得多（prompt只有3个token）。

损失函数 / 训练策略¶

采用综合损失函数：交叉熵损失 \(\mathcal{L}_{ce}\) + Lovász-Softmax损失 \(\mathcal{L}_{ls}\)（处理类别不平衡）+ 几何亲和损失 \(\mathcal{L}_{scal}^{geo}\) + 语义亲和损失 \(\mathcal{L}_{scal}^{sem}\)（鼓励相邻体素的一致性）。使用AdamW优化器，学习率4e-4，权重衰减0.01，训练48个epoch。在4张RTX 3090上训练。

实验关键数据¶

方法	模态	mIoU
MonoScene	C	8.94
EFFOcc-C	C	4.47
EFFOcc-L	L	18.77
EFFOcc-T (C+L)	C+L	19.18
VoxelHound	C+L+T+P	23.34

光照条件	模态	mIoU
白天	C+L	22.56
白天	C+L+T+P	23.34
夜晚	C+L	19.17
夜晚	C+L+T+P	18.68

消融实验要点¶

基线（无VJC无MIPF）: 22.74 mIoU
+VJC: 22.92（+0.18），验证了抖动补偿的有效性
+MIPF: 23.14（+0.40），融合模块贡献更大
两者同时: 23.34（+0.60），两模块互补
VJC隐藏通道维度：64最优（23.34），参数增量极小（0.04M）
MIPF：提示通道维度8、注意力头数8时最优（23.34）

亮点¶

首创性：首个面向四足机器人的全景多模态占据数据集，填补重要空白
VJC设计简洁有效：用1D卷积估计全局垂直偏移量来补偿步态抖动，思路清晰、计算开销几乎为零
MIPF的非对称融合哲学：将图像模态压缩为紧凑prompt而非做密集交叉注意力，既保护了LiDAR几何主体，又引入了语义增强。这个"几何主导、语义补充"的思路可以迁移到其他多模态融合场景
四种传感模态：热成像在低光照下增强鲁棒性，偏振成像揭示材质和弱目标线索——这些非常规模态的引入值得关注
标定工具开源：提供了LiDAR-相机标定工具

局限性 / 可改进方向¶

数据集规模有限（21.6k帧），远小于大规模自动驾驶数据集（nuScenes 40k、SemanticKITTI 43k），难以训练大模型
体素分辨率0.4m较粗，不适用于需要精细几何的抓取等操作任务
夜间+全模态（18.68 mIoU）反而低于白天+C+L配置（22.56），说明热成像和偏振在夜间的贡献需要更好的融合策略
只覆盖室外场景，缺少室内环境
VJC只补偿全局垂直偏移，对旋转和局部形变未建模
主要在自建数据集上验证，缺乏在其他占据benchmark上的泛化性验证

与相关工作的对比¶

vs EFFOcc：现有最接近的baseline。VoxelHound在camera+LiDAR配置上已超越EFFOcc-T 4.16 mIoU，加入热成像和偏振后优势更明显。核心差异在于MIPF的非对称融合策略和VJC的抖动补偿。
vs MonoScene：MonoScene是单目相机占据预测方法，在全景场景下只有8.94 mIoU，说明纯视觉方法在四足平台上严重不足（低视点、抖动、光照变化）。
vs QuadOcc：同样面向四足机器人但只使用全景RGB，且类别更少（6类），PanoMMOcc在传感模态丰富度和标注完整度上有显著优势。

启发与关联¶

与开放词汇3D占据idea的关联：PanoMMOcc的12类固定标注限制了泛化能力。结合CLIP做开放词汇占据预测是一个自然的扩展方向（参见ideas/3d_vision/20260316_open_vocab_3d_occupancy.md）
与全景空间推理idea的关联：该数据集的全景+多模态设置可以作为全景空间推理系统的感知基座（参见ideas/segmentation/20260316_panoramic_spatial_reasoning.md）
MIPF中"prompt式融合"的设计可推广到其他多模态任务——用轻量prompt代替密集特征交互

评分¶

新颖性: ⭐⭐⭐⭐ 首个四足机器人全景多模态占据数据集和框架，填补空白
实验充分度: ⭐⭐⭐ 仅在自建数据集上验证，缺乏跨数据集泛化实验
写作质量: ⭐⭐⭐⭐ 结构清晰，数据集构建细节充分，附录详尽
价值: ⭐⭐⭐⭐ 数据集和标定工具开源对社区有重要价值