OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving¶

会议: ECCV 2024
arXiv: 2404.15014
代码: https://occgen-ad.github.io/ (有)
领域: 多模态VLM
关键词: 3D占据预测, 扩散模型, 自动驾驶, 多模态融合, 生成式感知

一句话总结¶

提出OccGen，首次将扩散模型的"噪声到占据"生成范式引入3D语义占据预测任务，通过条件编码器+渐进式精炼解码器实现由粗到精的占据图生成，在nuScenes-Occupancy上多模态/纯LiDAR/纯相机设置下分别提升mIoU 9.5%/6.3%/13.3%。

领域现状：3D语义占据预测为自动驾驶提供比BEV更精细的3D场景表示，为每个体素分配语义标签。现有方法分为LiDAR、视觉、多模态三类，均采用判别式单次前馈预测。
现有痛点：(1) 判别式方法仅学习输入到输出的单步映射，忽视了占据图底层分布的建模；(2) 单次推理不足以完成细粒度场景补全，就像人需要持续观察才能完全感知场景一样；(3) 判别式方法无法提供预测不确定性估计。
核心观察：扩散模型的去噪过程天然可以建模密集3D占据图的由粗到精精炼，从高斯噪声逐步生成详细预测。
核心idea：将3D占据预测reformulate为条件生成问题——"噪声→占据"，利用多次精炼步骤渐进生成占据图。

OccGen由两部分组成：(1) 条件编码器（仅运行一次）：处理多模态输入（LiDAR点云+多视角图像），提取多尺度融合特征作为条件；(2) 渐进式精炼解码器（运行多次）：接收3D噪声图，利用条件特征通过3D可变形注意力逐步去噪，生成最终占据预测。

条件编码器 - 多模态特征融合：
- LiDAR流：VoxelNet + 3D稀疏卷积提取LiDAR体素特征
- 相机流：预训练2D backbone + FPN提取多视角图像特征→2D-to-3D视角转换
- Hard 2D-to-3D视角转换：用Gumbel-Softmax生成one-hot深度编码（替代传统softmax深度概率），保证更精确的深度估计
- 几何掩码（Geometry Mask）：利用LiDAR体素特征生成空间掩码，施加到相机体素特征上，弥合相机特征与真实空间分布的差距
- 自适应融合：σ(W)⊙F_p + (1-σ(W))⊙F_c
渐进式精炼解码器：
- 输入：3D高斯噪声图（或上一步的预测噪声图）+ 采样步索引t + 多尺度融合特征
- 3D可变形交叉注意力：将噪声图下采样为多尺度query，在条件特征上采样关键点计算注意力
- 3D可变形自注意力：增强query间的自补全能力
- 时间扩散模块：对步索引t做embedding后进行scale-shift操作
- 上采样+投影回原始3D分辨率→占据头输出最终语义标签
训练过程 - Occupancy Corruption：
- 按DDPM方式向ground truth占据图添加高斯噪声，使用cosine noise schedule
- 训练解码器学习从噪声中恢复干净占据图

总损失：L_total = L_ce + L_ls + L_scal^geo + L_scal^sem + L_d
- L_ce：交叉熵损失
- L_ls：Lovász-Softmax损失
- L_scal^geo/L_scal^sem：几何/语义亲和力损失
- L_d：深度估计损失
推理时采用DDIM采样策略，使用非对称时间间隔(td=1)

组件	效果
Hard vs Soft 2D-to-3D View Transform	Hard更精确
有/无几何掩码	几何掩码提升相机特征质量
Cosine vs Linear noise schedule	Cosine更优
推理步数1→3→5	性能逐步提升（更多步=更精细）
不确定性估计	多次独立推理可得到预测方差