跳转至

Language Driven Occupancy Prediction (LOcc)

会议: ICCV 2025
arXiv: 2411.16072
代码: https://github.com/pkqbajng/LOcc
机构: Zhejiang University, CaiNiao (Alibaba) 领域: 自动驾驶 / 占据预测 / 开放词汇
关键词: open-vocabulary occupancy, language-driven, semantic transitive labeling, 3D perception, occupancy prediction, CLIP

一句话总结

提出LOcc,一个有效且可泛化的开放词汇占据(OVO)预测框架,核心是设计了语义传递标注管线(LVLM+OV-Seg→LiDAR→voxel),生成密集细粒度的3D语言占据伪GT,替代了噪声大且稀疏的传统中间特征蒸馏,在Occ3D-nuScenes上全面超越SOTA。

背景与动机

基于视觉的占据预测是自动驾驶3D感知的核心任务,需要从图像输入估计场景的几何和语义。传统有监督方法被限制在固定语义类别集合上,且构建密集GT需要逐帧标注LiDAR点云,人工成本极高。开放词汇占据(OVO)旨在预测任意词汇集的占据状态,仅使用无标注数据训练。

现有OVO方法存在两个关键缺陷: 1. 使用图像特征作为中间媒介:同类物体在不同图像中特征值不同(编码了语义+外观),语义表示不一致,导致噪声大 2. 基于voxel的model-view投影:将voxel直接投影到图像平面获取标签,忽略遮挡关系,且仅用单帧图像,导致稀疏粗糙的voxel-to-text对应

核心问题

如何生成密集且细粒度的3D语言占据伪GT?

方法详解

整体框架

LOcc分为两大部分:语义传递标注管线(生成伪GT)+ OVO模型训练

Part 1:语义传递标注管线(核心创新)

Step 1:词汇提取 (LVLM)

  • 使用Qwen-VL等LVLM对每帧环视图像进行chain-of-thought对话
  • 先让LVLM描述场景,再要求列出所有物体类别名
  • 合并多帧环视图像的结果得到该帧的完整词汇集

Step 2:像素-文本关联 (OV-Seg)

  • 使用开放词汇分割模型(如FC-CLIP/SAN/CAT-Seg)
  • 每个像素通过余弦相似度匹配最高分的文本标签
  • 结果:每个像素都有一致的文本标签(非特征向量)

Step 3:LiDAR点云标签转移

  • 将无标注LiDAR点投影到图像平面获取对应像素的文本标签
  • 关键改进:建模遮挡关系,防止被遮挡点获取错误标签

Step 4:场景重建与体素化

  • 合并多帧LiDAR点云进行时序密集场景重建
  • 对每个voxel使用多数投票法分配最频繁出现的标签
  • 降低单帧分割噪声的影响

Part 2:OVO模型架构

语言自编码器(降维)

  • CLIP embedding维度高(512/768),设计文本自编码器压缩到低维潜空间

占据预测模型改造

  • 基于现有有监督占据模型(BEVFormer/BEVDet/BEVDet4D)
  • 将原始分类预测头替换为:几何头(二值占据状态)+ 语言头(低维语言特征)
  • 推理时将预测特征与任意文本embedding做余弦相似度匹配

损失函数

  • 几何损失:Binary CE用于占据状态预测
  • 语言损失:预测语言特征与伪GT语言标签的余弦相似度损失

实验关键数据

Occ3D-nuScenes上的OVO性能

方法 Backbone 输入分辨率 mIoU
POP-3D R101 900×1600 11.70
VEON ViT-B 900×1600 16.78
VEON (temporal) ViT-B 900×1600 17.51
LOcc-BEVDet R50 256×704 20.29
LOcc-BEVDet4D R50 256×704 21.07
LOcc-BEVFormer R101 900×1600 23.15
  • LOcc-BEVDet仅用R50+256×704分辨率即超越所有SOTA
  • LOcc-BEVFormer比VEON高出+6.37 mIoU

消融实验

  • LVLM词汇提取 vs. 固定类别集合:LVLM更全面
  • 遮挡建模:+1.8 mIoU
  • 多帧融合+多数投票:显著降低单帧噪声
  • 语言自编码器降维(512→64):mIoU仅下降0.3但计算量大幅减少

亮点

  • 语义传递标注管线是核心创新:Text label传递(而非visual feature蒸馏)从根本上解决了语义不一致问题
  • 利用LVLM做场景词汇发现:避免了预定义类别集合的限制
  • 遮挡感知的标签传递:显著提升标注准确性
  • 框架泛化性极强:兼容BEVFormer/BEVDet/BEVDet4D等多种主流模型
  • 伪GT质量接近人工标注:有望大幅降低3D标注成本

局限与展望

  • 管线依赖LVLM和OV-Seg模型的准确性
  • 词汇提取阶段需要逐帧LVLM推理,离线计算量大
  • 仅在nuScenes上验证,Waymo等未评估
  • 伪GT仍与人工标注有约5 mIoU差距

与相关工作的对比

  • vs. POP-3D:用稀疏LiDAR+LSeg features蒸馏,语义噪声大;LOcc用文本标签传递+密集重建
  • vs. VEON:用CLIP features+voxel直投,忽略遮挡;LOcc用OV-Seg文本标签+遮挡建模+多帧融合

启发与关联

  • "文本标签传递优于特征蒸馏"可迁移到其他3D语言理解任务
  • OVO的瓶颈不在模型架构而在伪GT质量——数据为王

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 语义传递标注管线理念新颖且实效显著
  • 实验充分度: ⭐⭐⭐⭐ 多骨干验证+伪GT质量对比+消融充分
  • 写作质量: ⭐⭐⭐⭐⭐ 图示清晰,问题定义精准
  • 价值: ⭐⭐⭐⭐⭐ 高质量免标注3D语言GT生成对3D感知社区有深远影响

相关论文