跳转至

An Instance-Centric Panoptic Occupancy Prediction Benchmark for Autonomous Driving

会议: CVPR 2026
arXiv: 2603.27238
代码: https://mias.group/CarlaOcc (有)
领域: 自动驾驶
关键词: 全景占据预测, 3D Mesh库, CARLA仿真, 实例级标注, 占据数据集质量

一句话总结

提出ADMesh(15K+高质量3D模型库)和CarlaOcc(10万帧、0.05m精度的全景占据数据集),首次为自动驾驶3D全景占据预测提供实例级标注和物理一致的地面真值,并引入占据质量评估指标和系统基准测试。

研究背景与动机

领域现状:3D占据预测正从纯语义占据向细粒度的全景占据(语义+实例联合预测)发展。SparseOcc、PanoOcc等方法已提出,但受限于数据集质量。

现有痛点:(1) 现有数据集缺乏实例级标注——SparseOcc/PaSCo通过启发式(3D框分组/聚类)生成伪全景标签,引入边界伪影和实例重叠;(2) 现有地面真值基于LiDAR点云聚合+体素化,分辨率粗糙(0.2-0.5m)、几何不完整(仅传感器可见面)、物理不一致(空洞和断裂);(3) 缺乏统一的高质量3D模型库——现有资源碎片化、平台绑定。

核心矛盾:全景占据预测需要精确的实例级几何标注,但现有数据集的生成管线(LiDAR聚合→体素化)从根本上无法提供物理一致且完整的地面真值。

切入角度:从3D mesh出发而非点云——mesh蕴含完整几何,可在任意分辨率下体素化。

核心idea:构建统一的3D模型库(ADMesh)→CARLA仿真重建完整场景mesh→拓扑感知体素化生成物理一致的全景占据标签。

方法详解

整体框架

四大组件:(1) ADMesh 3D模型库构建;(2) CarlaOcc数据集生成(场景mesh重建→体素化→传感器伪影修复);(3) 占据质量评估指标;(4) 系统基准测试。

关键设计

  1. ADMesh: 统一3D模型库:

    • 功能:整合CARLA、BuildingNet、MeshFleet、ShapeNet四个来源的15K+高质量3D模型
    • 核心思路:开发自动化Mesh导出工具链——遍历CARLA场景→提取组件级mesh资产→通过UE编辑器接口查询组件层级和变换→集成CARLA原生语义标注系统→层级组装重建完整对象级mesh。统一的数据组织框架确保命名、坐标系、语义层级一致性
    • 设计动机:仿真平台的资产碎片化、非标准化、平台绑定,需要统一框架支持大规模数据集构建
  2. 基于Mesh的场景重建:

    • 功能:从3D mesh直接重建每帧的全景场景mesh(非LiDAR点聚合)
    • 核心思路:
      • 静态背景:筛选与占据区域相交的背景mesh \(\mathcal{S}_{bg}\)
      • 刚性前景:用查找表(LUT)从ADMesh匹配模型 \(\mathcal{S}_{fg}^r\)
      • 非刚性前景(行人):骨骼运动分析器——预处理步行动画为D个离散相位模板mesh,运行时通过测地线匹配当前骨骼状态到最近相位 \(d_k = \arg\min_d \mathcal{G}(\delta_k, \delta_d)\)
      • 合并:\(\mathcal{M}^{pano} = \mathcal{S}_{bg} \cup \mathcal{S}_{fg}^r \cup \mathcal{S}_{fg}^n\)
    • 设计动机:mesh保留完整几何信息,避免LiDAR稀疏采样和遮挡导致的不完整
  3. 拓扑感知Mesh置换策略:

    • 功能:从全景场景mesh生成无重叠的全景占据标签
    • 核心思路:先按语义类别合并stuff mesh(消除冗余边界),再按世界高度排序实例,从低到高逐层体素化集成——确保低层结构不覆盖高层
    • 设计动机:直接逐mesh独立体素化计算量大且有标签冲突
  4. 实例引导的传感器伪影修复:

    • 功能:修复CARLA渲染的透明/半透明物体的深度和语义伪影
    • 核心思路:构建仅含透明物体的场景mesh→光线投射生成准确深度→与原始深度逐点取最小值修复
    • 设计动机:CARLA对透明物体的深度和语义渲染错误地显示为背后不透明物体

占据质量评估指标

  • 空间连续性分数(ssc):量化同语义类别占据体素的空间连续性(值越高越好)
  • 时间一致性分数(stc):量化相邻帧占据标签的时间稳定性

实验关键数据

数据集质量对比

数据集 合成 分辨率(m) 实例标注 \(s_{sc}\) \(s_{tc}\)
SemanticKITTI 0.2 0.353 0.023
Occ3D-nuScenes 0.4 0.721 0.431
SurroundOcc 0.5 0.878 0.589
CarlaSC 0.4 0.887 0.775
CarlaOcc (Ours) 0.05 0.996 0.873

基准模型测试(语义占据mIoU)

模型 关键发现
多种SOTA方法 在CarlaOcc上训练的模型受益于更精细的地面真值
全景占据任务 首次可以在真实实例级标注上评估

关键发现

  • CarlaOcc的空间连续性(0.996)和时间一致性(0.873)远超所有现有数据集
  • 0.05m分辨率是现有最精细数据集(SemanticKITTI 0.2m)的4倍
  • 实例引导修复流程有效纠正了透明物体的渲染伪影
  • 基于mesh的生成管线完全避免了LiDAR聚合的信息丢失

亮点与洞察

  • 从点云到Mesh的范式转变:mesh蕴含完整几何信息,从根本上解决了LiDAR聚合管线的分辨率和完整性限制。这对合成数据集构建方法论有重大启发
  • 骨骼运动分析器:为非刚性物体(行人)的精确重建提供了优雅方案——预处理动画相位+运行时测地线匹配
  • 质量评估指标:首次定义了空间连续性和时间一致性的定量标准来评估占据数据集质量

局限与展望

  • 合成数据的sim-to-real gap——在CarlaOcc上训练的模型能否迁移到真实驾驶场景?
  • ADMesh资产主要来自CARLA,多样性仍受仿真平台限制
  • 0.05m分辨率的体素量巨大,模型训练和推理的内存/计算开销需要考虑
  • 行人动画仅覆盖步行循环,更复杂的人体动作(如弯腰、蹲下)需要扩展

相关工作与启发

  • vs Occ3D/SurroundOcc: 基于LiDAR聚合的真实数据,几何不完整。CarlaOcc从mesh生成,物理一致但sim-to-real gap
  • vs CarlaSC: 同为CARLA合成数据集,但缺乏实例标注且分辨率粗(0.4m vs 0.05m)
  • vs SparseOcc/PanoOcc: 模型方法层面的创新,本文提供数据集层面的基础设施

评分

  • 新颖性: ⭐⭐⭐⭐ 首个实例级全景占据基准,ADMesh和mesh重建管线有创新
  • 实验充分度: ⭐⭐⭐⭐ 数据集质量评估全面,但下游模型benchmark可更丰富
  • 写作质量: ⭐⭐⭐⭐⭐ 管线描述清晰完整,数据集统计详细
  • 价值: ⭐⭐⭐⭐⭐ 为3D全景占据研究提供基础设施,推动领域发展

相关论文