Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras¶

会议: CVPR 2026
arXiv: 2603.01007
代码: 待确认
领域: 自动驾驶 / 3D占用预测
关键词: 3D占用预测, 深度引导, MoE区域专家, 空间各向异性, BEV

一句话总结¶

针对视角变换几何不对齐和语义类别空间各向异性不平衡，提出深度引导双投影视角变换器（D²-VFormer）利用MoGe-2构建非空体素掩码，和区域引导专家Transformer（R/R²-EFormer）自适应分配空间模型容量，BEVDet4D上提升7.43% mIoU。

视觉3D占用预测两大挑战：2D→3D视角变换缺乏精确深度导致几何不对齐；不同语义类别在3D空间中分布严重各向异性（行人在低处近处，建筑在高处）。约90%体素为空，但现有方法均匀分配计算。

如何有效利用MoGe-2高质量深度？直接拼接或伪点云不行。有效方式是构建非空体素掩码引导模型关注有意义区域。同时需要按空间区域自适应分配模型容量来处理各向异性。

环视相机 → ResNet-50 + MoGe-2 → D²-VFormer（三阶段：前向投影→反向稠密化→深度引导非空细化）→ R²-EFormer（递归区域专家）→ OCC Decoder

标准占用预测loss；24 epochs, AdamW, 8×L20 GPU

MoGe-2增加推理延迟；区域划分有超参数
→ 可与 ideas/20260316_causal_3d_occupancy.md 和 ideas/20260316_open_vocab_3d_occupancy.md 关联

vs COTR: 无深度掩码和区域专家；vs FB-Occ: 无高质量外部深度；vs SparseOcc: 稀疏策略不同

MoE区域专家对dense prediction空间不平衡问题有直接启发