跳转至

AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting

会议: ICCV 2025 (Highlight)
arXiv: 2502.04981
代码: 暂无公开代码
领域: 3D场景理解 / 自动驾驶 / 语义占据标注
关键词: 语义占据标注, 视觉-语言模型, 3D高斯泼溅, 开放词汇, 自动标注

一句话总结

提出AutoOcc,一个以视觉为中心的全自动开放式语义占据标注流水线,通过视觉-语言模型引导的可微高斯泼溅(VL-GS)实现无需人工标签的3D语义占据生成,在Occ3D-nuScenes上以纯视觉输入就达到IoU 83.01/mIoU 20.92,大幅超越现有自动标注方法。

背景与动机

3D语义占据预测在自动驾驶和具身智能中至关重要,但高质量标注极其昂贵(nuScenes标注耗费4000+人工小时)。现有自动/半自动标注方法存在三条路径: 1. 人工辅助标注:费时费力,成本高昂 2. 点云体素化(SurroundOcc, OpenOcc):依赖LiDAR点云和人工先验3D标注,需要多阶段后处理 3. 2D-to-3D投影(OVIR-3D, SAMPro3D):将2D分割结果投影到3D,但难以保证3D一致性

这些方法普遍存在的问题是:(a) 严重依赖LiDAR点云(本身稀疏不完整);(b) 需要人工预标注或后处理;(c) 局限于closed-set/open-set类别,无法处理预定义类别之外的物体(如倒塌的路桩、路面塑料片等)。同时,自监督方法(GaussianOcc, LangOcc, VEON)虽然免去了标注数据,但在几何精度、时空一致性和跨数据集泛化上表现不佳。

核心问题

如何构建一个完全自动化、无需人工标注、支持开放式语义类别的3D占据标注流水线,同时保证高几何精度、时空一致性,并能处理动态物体和泛化到未见数据集?

方法详解

整体框架

AutoOcc是一个端到端的视觉中心自动标注Pipeline,整体流程为: 1. 输入: 多视角图像序列(可选LiDAR) 2. Vision-Language引导: 用VLM生成语义注意力图,构建动态语义查询列表 3. VL-GS重建: 用语义感知的可缩放高斯体作为中间表示,通过自估计光流处理动态物体 4. 输出: 通过累积GS-Voxel Splatting直接生成3D语义占据标注

关键设计

  1. 语义注意力图(Semantic Attention Map): 利用VLM(如InternVL)对多视角图像生成所有可能的物体类别,从Transformer解码器中提取并聚合注意力图。建立动态更新的语义查询列表,通过语义合并策略将相似子词汇(如"tree"和"shrub")整合为统一类别("vegetation"),从根本上支持开放式语义标注。注意力图同时用于:(a) 作为提示输入SAM生成实例级分割掩码;(b) 引导UniDepth进行语义级深度估计,将前背景解耦并排除天空区域。

  2. 视觉-语言引导的高斯泼溅(VL-GS):

  3. 语义感知可缩放高斯体(Semantic-aware Scalable Gaussian): 核心创新——不同语义物体占据不同的空间"权重"。为每个高斯体分配语义属性和自适应缩放因子,大的背景区域(如建筑)用稀疏大尺度高斯体表示,精细物体(如骑车人)则用密集小尺度高斯体。缩放因子通过计算高斯椭球到体素的占据深度(考虑各向异性形状和空间重叠),根据高斯值梯度自适应调整。同一语义类别的高斯体共享相似的缩放因子范围。
  4. 自估计光流模块(Self-estimated Flow): 通过Chamfer Distance最小化同语义相邻高斯体在时间帧间的位移来估计3D光流向量。定义动态指示函数\(\mathbb{1}(D)\)判断物体是否运动,为动态高斯体分配运动属性,有效解决动态物体导致的拖尾效应和时空不一致问题。
  5. LiDAR几何约束(可选): 当有LiDAR数据时,通过多帧点云聚合计算锚点中心,施加几何感知损失\(L_{geo}\)约束高斯椭球分布与对应语义区域的几何先验对齐。

  6. 累积GS-Voxel Splatting: 将VL-GS累积泼溅到任意分辨率的体素网格上。每个体素的语义标签由高斯体的占据深度、不透明度和语义概率加权决定:\(\digamma(o) = \sum_i d_i G(x_i) \alpha_i \text{softmax}(\gamma_i)\)。整个过程是前向传递,高效且精确。

损失函数 / 训练策略

  • 使用AdamW优化器,初始学习率0.005,位置参数每250步以0.98衰减率衰减
  • 图像分辨率渐进式增长:从225×400开始,每300步翻倍至原始分辨率
  • 几何约束损失\(L_{geo}\)(使用LiDAR时):约束高斯椭球中心与对应语义区域的LiDAR锚点对齐
  • 语义渲染通过\(\alpha\)-blending实现,语义类别概率用softmax计算

实验关键数据

Occ3D-nuScenes语义占据标注

方法 输入 IoU mIoU 类型
GaussianOcc C 51.22 12.59 自监督
LangOcc C 46.55 12.04 自监督
VEON C 57.92 14.51 自监督
SurroundOcc* L 68.87 18.59 点云体素化
OpenOcc* C&L 70.59 17.76 点云体素化
OVIR-3D C&L 54.30 18.47 2D-to-3D投影
VLM-LiDAR C&L 73.28 16.32 2D-to-3D投影
AutoOcc-V C 83.01 20.92 本文(纯视觉)
AutoOcc-M C&L 88.62 25.84 本文(多模态)

AutoOcc-V(纯相机)相比最佳自监督方法VEON:IoU提升25.09(+43.3%),mIoU提升6.41。AutoOcc-M相比使用LiDAR的OpenOcc*:IoU提升18.03,mIoU提升8.08。

SemanticKITTI零样本跨数据集泛化

方法 输入 IoU mIoU mIoU-base
GaussianOcc C 22.42 4.18 6.84
OVO C 20.94 5.83 8.61
SurroundOcc L 27.83 6.39 10.45
VLM-LiDAR C&L 28.12 5.32 8.69
AutoOcc-V C 35.64 9.36 12.02
AutoOcc-M C&L 41.23 12.76 17.03

在跨数据集零样本设置下,AutoOcc-M在Novel Class(nuScenes中未见类别)上也能有效标注,而自监督方法几乎完全失败(多个类别IoU为0)。

标注效率对比

方法 标注时间 内存 原语数量 开放式 无标签
Auto+Human 4000+人工小时 - 1.2M
SurroundOcc 1000+ GPU小时 73G 3.0M
GaussianOcc 60 GPU小时 32G 0.8M
AutoOcc 30 GPU小时 5.0G 0.3M

消融实验要点

  • 去掉自估计光流模块(w/o SFM):IoU 82.65→83.01, mIoU 16.84→20.92(mIoU下降4.08,说明动态物体处理至关重要)
  • 去掉语义感知可缩放高斯(w/o SSG):IoU 80.27→83.01(IoU下降2.74,验证了多尺度建模的重要性)
  • 去掉LiDAR几何约束(w/o \(L_{geo}\)):IoU 81.49→83.01, mIoU 20.36→20.92(几何约束提供有效先验)
  • 三个模块中,自估计光流对mIoU影响最大,可缩放高斯对IoU影响最大

亮点

  • 首个以视觉为中心的全自动开放式语义占据标注流水线,无需任何人工标签和预定义类别
  • 语义感知可缩放高斯体设计精妙:同一语义类别共享缩放因子范围,实现了"建筑用稀疏大高斯、行人用密集小高斯"的自适应表示,仅需0.3M原语即可高质量表示场景
  • 动态物体处理出色:通过自估计光流+动态高斯体,有效解决了重建方法中动态物体的拖尾问题,能推理被遮挡部分
  • 极致效率:30 GPU小时完成全数据集标注,内存仅5G,分别是SurroundOcc的1/33时间和1/14内存
  • 强泛化能力:在SemanticKITTI零样本测试中保持明显优势,且在极端天气(雨天、夜间)下性能甚至可超越人工标注

局限性 / 可改进方向

  • VLM的语义注意力图质量受限于VLM本身能力,对罕见/细粒度物体可能有遗漏
  • 纯视觉模式下对深度估计的依赖:UniDepth在复杂场景下可能引入几何误差
  • 虽然支持开放式类别,但语义合并策略依赖启发式规则(梯度阈值),可能在极端长尾分布下失效
  • 论文未讨论在线/实时标注场景下的适用性,当前是离线Pipeline
  • Construction vehicle等类别在所有方法中表现都较差(AutoOcc-M仅4.32 IoU),说明对稀有小类别的建模仍有改进空间

与相关工作的对比

  • vs GaussianOcc:GaussianOcc同样使用GS作为中间表示进行自监督占据估计,但使用vanilla GS缺乏语义感知的多尺度建模和动态物体处理,IoU仅51.22 vs AutoOcc-V的83.01,差距巨大。AutoOcc通过VLM引导和语义感知可缩放高斯体实现了质的飞跃。
  • vs VEON:VEON是ECCV 2024的开放词汇占据估计方法,基于自监督+VFM特征。AutoOcc在IoU上领先25+点,核心差异在于AutoOcc使用可微重建作为核心引擎保证3D一致性,而VEON的2D特征提升无法有效解决多视角语义冲突。
  • vs OpenOcc/SurroundOcc:这些传统标注Pipeline依赖LiDAR+人工先验,多阶段处理复杂且耗时。AutoOcc即使仅用相机输入就全面超越它们,且标注速度快1-2个数量级。

启发与关联

  • 与ideas/中开放词汇3D占据网格预测高度相关:AutoOcc验证了VLM引导+可微重建是实现开放词汇3D占据的有效路径,但AutoOcc侧重标注而非在线预测,ideas中的方向可以借鉴AutoOcc的语义注意力图设计和语义合并策略
  • 代价体引导的全稀疏3D占据预测互补:AutoOcc证明了稀疏表示(0.3M高斯体 vs 数百万体素)在占据任务中的巨大优势,代价体idea可以考虑结合语义感知的稀疏采样策略
  • AutoOcc的"用VLM自动生成标注→训练下游模型"思路为数据飞轮提供了新范式,可以极低成本生成大规模占据标注数据

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将VLM引导+语义感知可缩放GS用于全自动开放式占据标注,系统性整合了多个创新设计,但VLM+GS的组合在其他任务中已有先例
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集(nuScenes+KITTI)、三类方法对比(点云体素化/2D-3D投影/自监督)、零样本泛化、效率对比、消融实验、极端天气定性分析,非常全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,Table 1的方法对比一目了然,但方法部分公式较多,某些符号定义可以更简洁
  • 价值: ⭐⭐⭐⭐⭐ 解决了一个高度实用的问题(占据标注成本),效率提升数量级级别(30 GPU h vs 4000+人工h),开放式能力对自动驾驶安全至关重要,作为Highlight当之无愧