Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras¶
会议: CVPR 2026
arXiv: 2603.01007
代码: 待确认
领域: 自动驾驶 / 3D占用预测
关键词: 3D占用预测, 深度引导, MoE区域专家, 空间各向异性, BEV
一句话总结¶
针对视角变换几何不对齐和语义类别空间各向异性不平衡,提出深度引导双投影视角变换器(D²-VFormer)利用MoGe-2构建非空体素掩码,和区域引导专家Transformer(R/R²-EFormer)自适应分配空间模型容量,BEVDet4D上提升7.43% mIoU。
背景与动机¶
视觉3D占用预测两大挑战:2D→3D视角变换缺乏精确深度导致几何不对齐;不同语义类别在3D空间中分布严重各向异性(行人在低处近处,建筑在高处)。约90%体素为空,但现有方法均匀分配计算。
核心问题¶
如何有效利用MoGe-2高质量深度?直接拼接或伪点云不行。有效方式是构建非空体素掩码引导模型关注有意义区域。同时需要按空间区域自适应分配模型容量来处理各向异性。
方法详解¶
整体框架¶
环视相机 → ResNet-50 + MoGe-2 → D²-VFormer(三阶段:前向投影→反向稠密化→深度引导非空细化)→ R²-EFormer(递归区域专家)→ OCC Decoder
关键设计¶
- D²-VFormer: 三阶段渐进——下采样提高深度鲁棒性,DCA反向稠密化,占用掩码\(M\)仅在非空体素上融合深度+图像特征
- R-EFormer: 按距离×高度分3×3区域,每区域独立DCA专家,路由器选Top-K
- R²-EFormer: 单专家递归3次,覆盖率100%→75%→50%逐步聚焦关键体素
损失函数 / 训练策略¶
标准占用预测loss;24 epochs, AdamW, 8×L20 GPU
实验关键数据¶
| 方法 | IoU | mIoU | 提升 |
|---|---|---|---|
| BEVDet4D | 39.6 | 36.0 | — |
| +Dr.Occ | 44.5 | 43.4 | +3.09/+7.43 |
| COTR+Dr.Occ | 45.6 | 44.1 | +1.0 |
消融实验要点¶
- D²-VFormer: +0.93 IoU, +5.44 mIoU;R²-EFormer参数更少但mIoU更高
- 前景类提升尤其显著(motorcycle+6.7, bicycle+20.4)
亮点 / 我学到了什么¶
- MoGe-2深度当"非空检测器"而非直接输入——绕开域差距
- 空间各向异性是被忽视的重要问题
- R²-EFormer递归替代多专家是高效设计
局限性 / 可改进方向¶
- MoGe-2增加推理延迟;区域划分有超参数
- → 可与
ideas/20260316_causal_3d_occupancy.md和ideas/20260316_open_vocab_3d_occupancy.md关联
与相关工作的对比¶
vs COTR: 无深度掩码和区域专家;vs FB-Occ: 无高质量外部深度;vs SparseOcc: 稀疏策略不同
与我的研究方向的关联¶
MoE区域专家对dense prediction空间不平衡问题有直接启发
评分¶
- 新颖性: ⭐⭐⭐⭐ MoGe-2做掩码用法新颖,MoE区域专家在占用预测首创
- 实验充分度: ⭐⭐⭐⭐ 两个baseline验证plug-and-play,消融完整
- 写作质量: ⭐⭐⭐⭐ 空间各向异性分析和可视化出色
- 对我的价值: ⭐⭐⭐⭐ 区域专家和深度掩码设计与dense prediction高度相关