跳转至

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras

会议: CVPR 2026
arXiv: 2603.01007
代码: 待确认
领域: 自动驾驶 / 3D占用预测
关键词: 3D占用预测, 深度引导, MoE区域专家, 空间各向异性, BEV

一句话总结

针对视角变换几何不对齐和语义类别空间各向异性不平衡,提出深度引导双投影视角变换器(D²-VFormer)利用MoGe-2构建非空体素掩码,和区域引导专家Transformer(R/R²-EFormer)自适应分配空间模型容量,BEVDet4D上提升7.43% mIoU。

背景与动机

视觉3D占用预测两大挑战:2D→3D视角变换缺乏精确深度导致几何不对齐;不同语义类别在3D空间中分布严重各向异性(行人在低处近处,建筑在高处)。约90%体素为空,但现有方法均匀分配计算。

核心问题

如何有效利用MoGe-2高质量深度?直接拼接或伪点云不行。有效方式是构建非空体素掩码引导模型关注有意义区域。同时需要按空间区域自适应分配模型容量来处理各向异性。

方法详解

整体框架

环视相机 → ResNet-50 + MoGe-2 → D²-VFormer(三阶段:前向投影→反向稠密化→深度引导非空细化)→ R²-EFormer(递归区域专家)→ OCC Decoder

关键设计

  1. D²-VFormer: 三阶段渐进——下采样提高深度鲁棒性,DCA反向稠密化,占用掩码\(M\)仅在非空体素上融合深度+图像特征
  2. R-EFormer: 按距离×高度分3×3区域,每区域独立DCA专家,路由器选Top-K
  3. R²-EFormer: 单专家递归3次,覆盖率100%→75%→50%逐步聚焦关键体素

损失函数 / 训练策略

标准占用预测loss;24 epochs, AdamW, 8×L20 GPU

实验关键数据

方法 IoU mIoU 提升
BEVDet4D 39.6 36.0
+Dr.Occ 44.5 43.4 +3.09/+7.43
COTR+Dr.Occ 45.6 44.1 +1.0

消融实验要点

  • D²-VFormer: +0.93 IoU, +5.44 mIoU;R²-EFormer参数更少但mIoU更高
  • 前景类提升尤其显著(motorcycle+6.7, bicycle+20.4)

亮点 / 我学到了什么

  • MoGe-2深度当"非空检测器"而非直接输入——绕开域差距
  • 空间各向异性是被忽视的重要问题
  • R²-EFormer递归替代多专家是高效设计

局限性 / 可改进方向

  • MoGe-2增加推理延迟;区域划分有超参数
  • → 可与 ideas/20260316_causal_3d_occupancy.mdideas/20260316_open_vocab_3d_occupancy.md 关联

与相关工作的对比

vs COTR: 无深度掩码和区域专家;vs FB-Occ: 无高质量外部深度;vs SparseOcc: 稀疏策略不同

与我的研究方向的关联

MoE区域专家对dense prediction空间不平衡问题有直接启发

评分

  • 新颖性: ⭐⭐⭐⭐ MoGe-2做掩码用法新颖,MoE区域专家在占用预测首创
  • 实验充分度: ⭐⭐⭐⭐ 两个baseline验证plug-and-play,消融完整
  • 写作质量: ⭐⭐⭐⭐ 空间各向异性分析和可视化出色
  • 对我的价值: ⭐⭐⭐⭐ 区域专家和深度掩码设计与dense prediction高度相关