AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting¶
会议: ICCV 2025 (Highlight)
arXiv: 2502.04981
代码: 暂无公开代码
领域: 3D场景理解 / 自动驾驶 / 语义占据标注
关键词: 语义占据标注, 视觉-语言模型, 3D高斯泼溅, 开放词汇, 自动标注
一句话总结¶
提出AutoOcc,一个以视觉为中心的全自动开放式语义占据标注流水线,通过视觉-语言模型引导的可微高斯泼溅(VL-GS)实现无需人工标签的3D语义占据生成,在Occ3D-nuScenes上以纯视觉输入就达到IoU 83.01/mIoU 20.92,大幅超越现有自动标注方法。
背景与动机¶
3D语义占据预测在自动驾驶和具身智能中至关重要,但高质量标注极其昂贵(nuScenes标注耗费4000+人工小时)。现有自动/半自动标注方法存在三条路径: 1. 人工辅助标注:费时费力,成本高昂 2. 点云体素化(SurroundOcc, OpenOcc):依赖LiDAR点云和人工先验3D标注,需要多阶段后处理 3. 2D-to-3D投影(OVIR-3D, SAMPro3D):将2D分割结果投影到3D,但难以保证3D一致性
这些方法普遍存在的问题是:(a) 严重依赖LiDAR点云(本身稀疏不完整);(b) 需要人工预标注或后处理;(c) 局限于closed-set/open-set类别,无法处理预定义类别之外的物体(如倒塌的路桩、路面塑料片等)。同时,自监督方法(GaussianOcc, LangOcc, VEON)虽然免去了标注数据,但在几何精度、时空一致性和跨数据集泛化上表现不佳。
核心问题¶
如何构建一个完全自动化、无需人工标注、支持开放式语义类别的3D占据标注流水线,同时保证高几何精度、时空一致性,并能处理动态物体和泛化到未见数据集?
方法详解¶
整体框架¶
AutoOcc是一个端到端的视觉中心自动标注Pipeline,整体流程为: 1. 输入: 多视角图像序列(可选LiDAR) 2. Vision-Language引导: 用VLM生成语义注意力图,构建动态语义查询列表 3. VL-GS重建: 用语义感知的可缩放高斯体作为中间表示,通过自估计光流处理动态物体 4. 输出: 通过累积GS-Voxel Splatting直接生成3D语义占据标注
关键设计¶
-
语义注意力图(Semantic Attention Map): 利用VLM(如InternVL)对多视角图像生成所有可能的物体类别,从Transformer解码器中提取并聚合注意力图。建立动态更新的语义查询列表,通过语义合并策略将相似子词汇(如"tree"和"shrub")整合为统一类别("vegetation"),从根本上支持开放式语义标注。注意力图同时用于:(a) 作为提示输入SAM生成实例级分割掩码;(b) 引导UniDepth进行语义级深度估计,将前背景解耦并排除天空区域。
-
视觉-语言引导的高斯泼溅(VL-GS):
- 语义感知可缩放高斯体(Semantic-aware Scalable Gaussian): 核心创新——不同语义物体占据不同的空间"权重"。为每个高斯体分配语义属性和自适应缩放因子,大的背景区域(如建筑)用稀疏大尺度高斯体表示,精细物体(如骑车人)则用密集小尺度高斯体。缩放因子通过计算高斯椭球到体素的占据深度(考虑各向异性形状和空间重叠),根据高斯值梯度自适应调整。同一语义类别的高斯体共享相似的缩放因子范围。
- 自估计光流模块(Self-estimated Flow): 通过Chamfer Distance最小化同语义相邻高斯体在时间帧间的位移来估计3D光流向量。定义动态指示函数\(\mathbb{1}(D)\)判断物体是否运动,为动态高斯体分配运动属性,有效解决动态物体导致的拖尾效应和时空不一致问题。
-
LiDAR几何约束(可选): 当有LiDAR数据时,通过多帧点云聚合计算锚点中心,施加几何感知损失\(L_{geo}\)约束高斯椭球分布与对应语义区域的几何先验对齐。
-
累积GS-Voxel Splatting: 将VL-GS累积泼溅到任意分辨率的体素网格上。每个体素的语义标签由高斯体的占据深度、不透明度和语义概率加权决定:\(\digamma(o) = \sum_i d_i G(x_i) \alpha_i \text{softmax}(\gamma_i)\)。整个过程是前向传递,高效且精确。
损失函数 / 训练策略¶
- 使用AdamW优化器,初始学习率0.005,位置参数每250步以0.98衰减率衰减
- 图像分辨率渐进式增长:从225×400开始,每300步翻倍至原始分辨率
- 几何约束损失\(L_{geo}\)(使用LiDAR时):约束高斯椭球中心与对应语义区域的LiDAR锚点对齐
- 语义渲染通过\(\alpha\)-blending实现,语义类别概率用softmax计算
实验关键数据¶
Occ3D-nuScenes语义占据标注¶
| 方法 | 输入 | IoU | mIoU | 类型 |
|---|---|---|---|---|
| GaussianOcc | C | 51.22 | 12.59 | 自监督 |
| LangOcc | C | 46.55 | 12.04 | 自监督 |
| VEON | C | 57.92 | 14.51 | 自监督 |
| SurroundOcc* | L | 68.87 | 18.59 | 点云体素化 |
| OpenOcc* | C&L | 70.59 | 17.76 | 点云体素化 |
| OVIR-3D | C&L | 54.30 | 18.47 | 2D-to-3D投影 |
| VLM-LiDAR | C&L | 73.28 | 16.32 | 2D-to-3D投影 |
| AutoOcc-V | C | 83.01 | 20.92 | 本文(纯视觉) |
| AutoOcc-M | C&L | 88.62 | 25.84 | 本文(多模态) |
AutoOcc-V(纯相机)相比最佳自监督方法VEON:IoU提升25.09(+43.3%),mIoU提升6.41。AutoOcc-M相比使用LiDAR的OpenOcc*:IoU提升18.03,mIoU提升8.08。
SemanticKITTI零样本跨数据集泛化¶
| 方法 | 输入 | IoU | mIoU | mIoU-base |
|---|---|---|---|---|
| GaussianOcc | C | 22.42 | 4.18 | 6.84 |
| OVO | C | 20.94 | 5.83 | 8.61 |
| SurroundOcc | L | 27.83 | 6.39 | 10.45 |
| VLM-LiDAR | C&L | 28.12 | 5.32 | 8.69 |
| AutoOcc-V | C | 35.64 | 9.36 | 12.02 |
| AutoOcc-M | C&L | 41.23 | 12.76 | 17.03 |
在跨数据集零样本设置下,AutoOcc-M在Novel Class(nuScenes中未见类别)上也能有效标注,而自监督方法几乎完全失败(多个类别IoU为0)。
标注效率对比¶
| 方法 | 标注时间 | 内存 | 原语数量 | 开放式 | 无标签 |
|---|---|---|---|---|---|
| Auto+Human | 4000+人工小时 | - | 1.2M | ✗ | ✗ |
| SurroundOcc | 1000+ GPU小时 | 73G | 3.0M | ✗ | ✗ |
| GaussianOcc | 60 GPU小时 | 32G | 0.8M | ✗ | ✓ |
| AutoOcc | 30 GPU小时 | 5.0G | 0.3M | ✓ | ✓ |
消融实验要点¶
- 去掉自估计光流模块(w/o SFM):IoU 82.65→83.01, mIoU 16.84→20.92(mIoU下降4.08,说明动态物体处理至关重要)
- 去掉语义感知可缩放高斯(w/o SSG):IoU 80.27→83.01(IoU下降2.74,验证了多尺度建模的重要性)
- 去掉LiDAR几何约束(w/o \(L_{geo}\)):IoU 81.49→83.01, mIoU 20.36→20.92(几何约束提供有效先验)
- 三个模块中,自估计光流对mIoU影响最大,可缩放高斯对IoU影响最大
亮点¶
- 首个以视觉为中心的全自动开放式语义占据标注流水线,无需任何人工标签和预定义类别
- 语义感知可缩放高斯体设计精妙:同一语义类别共享缩放因子范围,实现了"建筑用稀疏大高斯、行人用密集小高斯"的自适应表示,仅需0.3M原语即可高质量表示场景
- 动态物体处理出色:通过自估计光流+动态高斯体,有效解决了重建方法中动态物体的拖尾问题,能推理被遮挡部分
- 极致效率:30 GPU小时完成全数据集标注,内存仅5G,分别是SurroundOcc的1/33时间和1/14内存
- 强泛化能力:在SemanticKITTI零样本测试中保持明显优势,且在极端天气(雨天、夜间)下性能甚至可超越人工标注
局限性 / 可改进方向¶
- VLM的语义注意力图质量受限于VLM本身能力,对罕见/细粒度物体可能有遗漏
- 纯视觉模式下对深度估计的依赖:UniDepth在复杂场景下可能引入几何误差
- 虽然支持开放式类别,但语义合并策略依赖启发式规则(梯度阈值),可能在极端长尾分布下失效
- 论文未讨论在线/实时标注场景下的适用性,当前是离线Pipeline
- Construction vehicle等类别在所有方法中表现都较差(AutoOcc-M仅4.32 IoU),说明对稀有小类别的建模仍有改进空间
与相关工作的对比¶
- vs GaussianOcc:GaussianOcc同样使用GS作为中间表示进行自监督占据估计,但使用vanilla GS缺乏语义感知的多尺度建模和动态物体处理,IoU仅51.22 vs AutoOcc-V的83.01,差距巨大。AutoOcc通过VLM引导和语义感知可缩放高斯体实现了质的飞跃。
- vs VEON:VEON是ECCV 2024的开放词汇占据估计方法,基于自监督+VFM特征。AutoOcc在IoU上领先25+点,核心差异在于AutoOcc使用可微重建作为核心引擎保证3D一致性,而VEON的2D特征提升无法有效解决多视角语义冲突。
- vs OpenOcc/SurroundOcc:这些传统标注Pipeline依赖LiDAR+人工先验,多阶段处理复杂且耗时。AutoOcc即使仅用相机输入就全面超越它们,且标注速度快1-2个数量级。
启发与关联¶
- 与ideas/中开放词汇3D占据网格预测高度相关:AutoOcc验证了VLM引导+可微重建是实现开放词汇3D占据的有效路径,但AutoOcc侧重标注而非在线预测,ideas中的方向可以借鉴AutoOcc的语义注意力图设计和语义合并策略
- 与代价体引导的全稀疏3D占据预测互补:AutoOcc证明了稀疏表示(0.3M高斯体 vs 数百万体素)在占据任务中的巨大优势,代价体idea可以考虑结合语义感知的稀疏采样策略
- AutoOcc的"用VLM自动生成标注→训练下游模型"思路为数据飞轮提供了新范式,可以极低成本生成大规模占据标注数据
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将VLM引导+语义感知可缩放GS用于全自动开放式占据标注,系统性整合了多个创新设计,但VLM+GS的组合在其他任务中已有先例
- 实验充分度: ⭐⭐⭐⭐⭐ 两个数据集(nuScenes+KITTI)、三类方法对比(点云体素化/2D-3D投影/自监督)、零样本泛化、效率对比、消融实验、极端天气定性分析,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,Table 1的方法对比一目了然,但方法部分公式较多,某些符号定义可以更简洁
- 价值: ⭐⭐⭐⭐⭐ 解决了一个高度实用的问题(占据标注成本),效率提升数量级级别(30 GPU h vs 4000+人工h),开放式能力对自动驾驶安全至关重要,作为Highlight当之无愧