跳转至

M²-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

会议: CVPR 2026
arXiv: 2603.09737
代码: https://github.com/qixi7up/M2-Occ (有)
领域: 3D视觉 / 自动驾驶 / 语义占据预测
关键词: semantic occupancy prediction, missing camera view, multi-view reconstruction, feature memory, robustness

一句话总结

针对自动驾驶中相机故障导致的不完整输入问题,提出M²-Occ框架,通过多视角掩码重建(MMR)利用相邻相机重叠视场恢复缺失特征,并引入特征记忆模块(FMM)用类级语义原型精化体素表示,在缺失后视摄像头时IoU提升4.93%,不影响全视角性能。

背景与动机

3D语义占据预测为自动驾驶提供密集的体素级场景理解,比BEV感知更全面(覆盖任意形状障碍物和细粒度语义)。现有基于多相机的方法(SurroundOcc、TPVFormer等)隐含假设所有6个环视相机都正常工作。但实际部署中,相机故障(镜头遮挡、硬件故障、通信中断)是常见的。初步实验显示,即使SurroundOcc这样的经典模型,丢失单个关键视角就会导致严重性能下降——后视摄像头丢失时IoU从31.45%降至23.94%,产生严重的几何盲区。现有BEV领域有一些鲁棒性工作(M-BEV、MetaBEV、SafeMap),但在3D语义占据预测领域,对传感器失效的鲁棒性研究几乎为空白。

核心问题

如何在多相机输入不完整(一个或多个相机完全失效)的情况下,保持3D语义占据预测的几何完整性和语义一致性?这是一个安全关键问题——后视相机失效意味着车辆后方完全"失明",可能导致严重事故。

方法详解

整体框架

标准2D→3D范式:多视角图像经共享ResNet-101+FPN提取多尺度2D特征,经空间交叉注意力提升为3D体素表示,最后3D占据头预测体素语义标签。在两个关键位置插入新模块:(1) 特征提取阶段后插入MMR模块恢复缺失视角特征;(2) 体素精化阶段插入FMM模块用语义原型精化。训练时用Random View Masking(RVM)随机丢弃视角模拟故障;测试时mask特定视角评估鲁棒性。

关键设计

  1. 多视角掩码重建(MMR): 利用相邻相机的物理重叠视场来恢复缺失视角特征。三步流程:
  2. 视角关系建模:将6个相机建模为循环图,每个视角\(v_i\)的邻域为左右相邻相机\(\mathcal{N}(v_i) = \{v_{(i-1)\text{mod}N}, v_{(i+1)\text{mod}N}\}\)
  3. 重叠区域特征聚合:从左右邻居的特征图中裁剪重叠边界区域(宽度\(w_{ov}\)对应物理重叠),与可学习mask token拼接:\(\mathbf{f}_{ref} = \text{Concat}(\mathbf{f}_{left}[:,-w_{ov}:], \mathbf{e}_{mask}, \mathbf{f}_{right}[:,:w_{ov}])\)
  4. Transformer解码重建:6层Transformer blocks(8头注意力,MLP ratio=4),加可学习位置编码,从粗糙结构先验重建缺失特征 \(\hat{\mathbf{f}}_i = \mathcal{D}(\mathbf{f}_{ref} + \mathbf{p}_{pos})\)
  5. MMR损失仅在被mask的视角上计算MSE:\(\mathcal{L}_{MMR} = \frac{1}{|\mathcal{M}|}\sum_{i \in \mathcal{M}} \|\hat{\mathbf{f}}_i - \mathbf{f}_i^{gt}\|^2\)

  6. 特征记忆模块(FMM): MMR恢复的特征可能模糊或语义模糊,FMM用全局语义原型作为"长期记忆"来精化。两种策略:

  7. Single-Proto策略:每个语义类维护一个全局质心\(\mathbf{m}_k\),用动量移动平均更新:\(\mathbf{m}_k^{(t)} = (1-\lambda)\mathbf{m}_k^{(t-1)} + \lambda \cdot \bar{\mathbf{f}}_k\)\(\lambda=0.1\)。稳定但无法捕捉类内多样性
  8. Multi-Proto策略:每个类维护\(N_p\)个子原型\(\mathbf{m}_{k,j}\),通过余弦相似度+softmax温度\(\tau\)计算检索权重\(\alpha_{k,j}\)。能建模类内差异(如不同车型),但在严重缺失情况下可能因噪声路由导致过度碎片化
  9. 记忆增强特征:用预测的类概率\(P(k)\)作为门控,聚合加权原型作为残差修正:\(\mathbf{x}' = \mathbf{x} + \sum_{k=1}^{K}(P(k)\sum_{j=1}^{N_p}\alpha_{k,j}\mathbf{m}_{k,j})\)

损失函数 / 训练策略

  • 主损失:标准语义占据交叉熵损失 + \(\mathcal{L}_{MMR}\)
  • 基于SurroundOcc官方实现,ResNet-101 + FCOS3D预训练权重
  • AdamW优化器,学习率\(2 \times 10^{-4}\),weight decay 0.01
  • 训练24 epochs,体素大小200×200×16,范围[-50m, 50m]
  • 训练时随机丢弃视角(RVM),测试时按特定模式丢弃

实验关键数据

缺失视角 指标 M²-Occ SurroundOcc基线 提升
Front IoU↑ 30.40 25.03 +5.37
Back(安全关键) IoU↑ 28.87 23.94 +4.93
Front Left IoU↑ 31.25 30.74 +0.51
Front Right IoU↑ 31.17 30.56 +0.61
Back Left IoU↑ 31.08 30.35 +0.73
Back Right IoU↑ 31.19 30.62 +0.57
1 View (avg) IoU↑ 30.66 28.42 +2.24
3 Views IoU↑ 26.06 20.52 +5.54
5 Views IoU↑ 18.36 13.35 +5.01

消融实验要点

  • MMR单独:IoU从26.76恢复到28.19(+1.43),主要恢复大尺度空间结构(道路、车辆体积)
  • MMR+FMM(Single-Proto):IoU进一步到28.38(+0.19),语义精化有效
  • Multi-Proto vs Single-Proto:Multi-Proto(IoU 27.76)反而不如Single-Proto(28.38),在缺失视角条件下细粒度原型路由引入噪声
  • 计算开销:额外仅约0.15GB显存(约2.5%),推理时间随缺失视角数线性增加
  • 大物体恢复好:如drive.surf(27.51→35.02,+7.51),但小物体反而下降(pedestrian 12.50→10.51,traffic cone 8.70→5.71)

亮点

  • 问题定义精准:首次系统研究3D语义占据预测在相机失效下的鲁棒性,填补了重要空白
  • MMR利用物理重叠很巧妙:不幻想原始像素,而是在特征空间利用相邻相机的真实重叠区域作为结构先验
  • 开销极低:0.15GB显存增加就获得显著鲁棒性提升,实际部署友好
  • 评估协议完善:覆盖确定性单视角失效和随机多视角丢弃,是好的benchmark设计
  • 诚实的分析:明确指出对小物体的局限性,并给出合理解释

局限性 / 可改进方向

  • 小物体重建质量下降明显:MMR依赖边界重叠区域,分辨率不足以捕捉远距离小物体的细节
  • Multi-Proto策略在缺失条件下不如Single-Proto,说明在不完整观测下原型路由机制需改进
  • 仅验证了SurroundOcc作为baseline,是否对其他占据预测方法(如BEVFormer、TPVFormer)通用有待验证
  • 未考虑时序信息——相邻帧的时序特征可以补偿当前帧的缺失视角
  • MMR推理时间随缺失视角数线性增长,5个视角缺失时推理时间增加约62%
  • 未讨论同时多帧连续缺失(非单帧独立缺失)的情况

与相关工作的对比

  • vs M-BEV:M-BEV在BEV空间做整个视角的掩码重建,本文在特征空间做且面向3D占据预测而非BEV检测
  • vs MetaBEV:MetaBEV处理传感器损坏和模态缺失,但面向BEV联合任务(检测+分割);M²-Occ专注3D语义占据的体素级重建
  • vs SafeMap/FlexMap:这些面向BEV地图构建,不涉及密集3D语义占据预测

启发与关联

  • 与 ideas 中的 开放词汇3D占据预测 相关——如果结合开放词汇能力+缺失视角鲁棒性,将是更实用的系统
  • FMM的语义原型思路可以与LR-SGS的反射率通道结合——用反射率作为额外的类级特征来增强原型
  • 时序信息是明显的改进方向——用前几帧的完整观测来补偿当前帧缺失

评分

  • 新颖性: ⭐⭐⭐⭐ 首次在3D占据预测中系统研究传感器失效鲁棒性,MMR利用物理重叠的设计有针对性
  • 实验充分度: ⭐⭐⭐⭐ 覆盖了6个单视角+多视角dropout场景,消融完整,但baseline单一
  • 写作质量: ⭐⭐⭐⭐ 问题阐述清晰,实验分析诚实(承认小物体局限),图示直观
  • 价值: ⭐⭐⭐⭐ 对自动驾驶安全部署有直接意义,低开销设计有实际应用潜力