AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting¶

会议: ICCV 2025 (Highlight)
arXiv: 2502.04981
代码: 暂无公开代码
领域: 3D场景理解 / 自动驾驶 / 语义占据标注
关键词: 语义占据标注, 视觉-语言模型, 3D高斯泼溅, 开放词汇, 自动标注

一句话总结¶

提出AutoOcc，一个以视觉为中心的全自动开放式语义占据标注流水线，通过视觉-语言模型引导的可微高斯泼溅（VL-GS）实现无需人工标签的3D语义占据生成，在Occ3D-nuScenes上以纯视觉输入就达到IoU 83.01/mIoU 20.92，大幅超越现有自动标注方法。

背景与动机¶

3D语义占据预测在自动驾驶和具身智能中至关重要，但高质量标注极其昂贵（nuScenes标注耗费4000+人工小时）。现有自动/半自动标注方法存在三条路径： 1. 人工辅助标注：费时费力，成本高昂 2. 点云体素化（SurroundOcc, OpenOcc）：依赖LiDAR点云和人工先验3D标注，需要多阶段后处理 3. 2D-to-3D投影（OVIR-3D, SAMPro3D）：将2D分割结果投影到3D，但难以保证3D一致性

这些方法普遍存在的问题是：(a) 严重依赖LiDAR点云（本身稀疏不完整）；(b) 需要人工预标注或后处理；(c) 局限于closed-set/open-set类别，无法处理预定义类别之外的物体（如倒塌的路桩、路面塑料片等）。同时，自监督方法（GaussianOcc, LangOcc, VEON）虽然免去了标注数据，但在几何精度、时空一致性和跨数据集泛化上表现不佳。

核心问题¶

如何构建一个完全自动化、无需人工标注、支持开放式语义类别的3D占据标注流水线，同时保证高几何精度、时空一致性，并能处理动态物体和泛化到未见数据集？

方法详解¶

整体框架¶

AutoOcc是一个端到端的视觉中心自动标注Pipeline，整体流程为： 1. 输入: 多视角图像序列（可选LiDAR） 2. Vision-Language引导: 用VLM生成语义注意力图，构建动态语义查询列表 3. VL-GS重建: 用语义感知的可缩放高斯体作为中间表示，通过自估计光流处理动态物体 4. 输出: 通过累积GS-Voxel Splatting直接生成3D语义占据标注

关键设计¶

语义注意力图（Semantic Attention Map）: 利用VLM（如InternVL）对多视角图像生成所有可能的物体类别，从Transformer解码器中提取并聚合注意力图。建立动态更新的语义查询列表，通过语义合并策略将相似子词汇（如"tree"和"shrub"）整合为统一类别（"vegetation"），从根本上支持开放式语义标注。注意力图同时用于：(a) 作为提示输入SAM生成实例级分割掩码；(b) 引导UniDepth进行语义级深度估计，将前背景解耦并排除天空区域。
视觉-语言引导的高斯泼溅（VL-GS）:
语义感知可缩放高斯体（Semantic-aware Scalable Gaussian）: 核心创新——不同语义物体占据不同的空间"权重"。为每个高斯体分配语义属性和自适应缩放因子，大的背景区域（如建筑）用稀疏大尺度高斯体表示，精细物体（如骑车人）则用密集小尺度高斯体。缩放因子通过计算高斯椭球到体素的占据深度（考虑各向异性形状和空间重叠），根据高斯值梯度自适应调整。同一语义类别的高斯体共享相似的缩放因子范围。
自估计光流模块（Self-estimated Flow）: 通过Chamfer Distance最小化同语义相邻高斯体在时间帧间的位移来估计3D光流向量。定义动态指示函数\(\mathbb{1}(D)\)判断物体是否运动，为动态高斯体分配运动属性，有效解决动态物体导致的拖尾效应和时空不一致问题。
LiDAR几何约束（可选）: 当有LiDAR数据时，通过多帧点云聚合计算锚点中心，施加几何感知损失\(L_{geo}\)约束高斯椭球分布与对应语义区域的几何先验对齐。
累积GS-Voxel Splatting: 将VL-GS累积泼溅到任意分辨率的体素网格上。每个体素的语义标签由高斯体的占据深度、不透明度和语义概率加权决定：\(\digamma(o) = \sum_i d_i G(x_i) \alpha_i \text{softmax}(\gamma_i)\)。整个过程是前向传递，高效且精确。

损失函数 / 训练策略¶

使用AdamW优化器，初始学习率0.005，位置参数每250步以0.98衰减率衰减
图像分辨率渐进式增长：从225×400开始，每300步翻倍至原始分辨率
几何约束损失\(L_{geo}\)（使用LiDAR时）：约束高斯椭球中心与对应语义区域的LiDAR锚点对齐
语义渲染通过\(\alpha\)-blending实现，语义类别概率用softmax计算

实验关键数据¶

Occ3D-nuScenes语义占据标注¶

方法	输入	IoU	mIoU	类型
GaussianOcc	C	51.22	12.59	自监督
LangOcc	C	46.55	12.04	自监督
VEON	C	57.92	14.51	自监督
SurroundOcc*	L	68.87	18.59	点云体素化
OpenOcc*	C&L	70.59	17.76	点云体素化
OVIR-3D	C&L	54.30	18.47	2D-to-3D投影
VLM-LiDAR	C&L	73.28	16.32	2D-to-3D投影
AutoOcc-V	C	83.01	20.92	本文（纯视觉）
AutoOcc-M	C&L	88.62	25.84	本文（多模态）

AutoOcc-V（纯相机）相比最佳自监督方法VEON：IoU提升25.09（+43.3%），mIoU提升6.41。AutoOcc-M相比使用LiDAR的OpenOcc*：IoU提升18.03，mIoU提升8.08。

SemanticKITTI零样本跨数据集泛化¶

方法	输入	IoU	mIoU	mIoU-base
GaussianOcc	C	22.42	4.18	6.84
OVO	C	20.94	5.83	8.61
SurroundOcc	L	27.83	6.39	10.45
VLM-LiDAR	C&L	28.12	5.32	8.69
AutoOcc-V	C	35.64	9.36	12.02
AutoOcc-M	C&L	41.23	12.76	17.03

在跨数据集零样本设置下，AutoOcc-M在Novel Class（nuScenes中未见类别）上也能有效标注，而自监督方法几乎完全失败（多个类别IoU为0）。

标注效率对比¶

方法	标注时间	内存	原语数量	开放式	无标签
Auto+Human	4000+人工小时	-	1.2M	✗	✗
SurroundOcc	1000+ GPU小时	73G	3.0M	✗	✗
GaussianOcc	60 GPU小时	32G	0.8M	✗	✓
AutoOcc	30 GPU小时	5.0G	0.3M	✓	✓

消融实验要点¶

去掉自估计光流模块（w/o SFM）：IoU 82.65→83.01, mIoU 16.84→20.92（mIoU下降4.08，说明动态物体处理至关重要）
去掉语义感知可缩放高斯（w/o SSG）：IoU 80.27→83.01（IoU下降2.74，验证了多尺度建模的重要性）
去掉LiDAR几何约束（w/o \(L_{geo}\)）：IoU 81.49→83.01, mIoU 20.36→20.92（几何约束提供有效先验）
三个模块中，自估计光流对mIoU影响最大，可缩放高斯对IoU影响最大

亮点¶

首个以视觉为中心的全自动开放式语义占据标注流水线，无需任何人工标签和预定义类别
语义感知可缩放高斯体设计精妙：同一语义类别共享缩放因子范围，实现了"建筑用稀疏大高斯、行人用密集小高斯"的自适应表示，仅需0.3M原语即可高质量表示场景
动态物体处理出色：通过自估计光流+动态高斯体，有效解决了重建方法中动态物体的拖尾问题，能推理被遮挡部分
极致效率：30 GPU小时完成全数据集标注，内存仅5G，分别是SurroundOcc的1/33时间和1/14内存
强泛化能力：在SemanticKITTI零样本测试中保持明显优势，且在极端天气（雨天、夜间）下性能甚至可超越人工标注

局限性 / 可改进方向¶

VLM的语义注意力图质量受限于VLM本身能力，对罕见/细粒度物体可能有遗漏
纯视觉模式下对深度估计的依赖：UniDepth在复杂场景下可能引入几何误差
虽然支持开放式类别，但语义合并策略依赖启发式规则（梯度阈值），可能在极端长尾分布下失效
论文未讨论在线/实时标注场景下的适用性，当前是离线Pipeline
Construction vehicle等类别在所有方法中表现都较差（AutoOcc-M仅4.32 IoU），说明对稀有小类别的建模仍有改进空间

与相关工作的对比¶

vs GaussianOcc：GaussianOcc同样使用GS作为中间表示进行自监督占据估计，但使用vanilla GS缺乏语义感知的多尺度建模和动态物体处理，IoU仅51.22 vs AutoOcc-V的83.01，差距巨大。AutoOcc通过VLM引导和语义感知可缩放高斯体实现了质的飞跃。
vs VEON：VEON是ECCV 2024的开放词汇占据估计方法，基于自监督+VFM特征。AutoOcc在IoU上领先25+点，核心差异在于AutoOcc使用可微重建作为核心引擎保证3D一致性，而VEON的2D特征提升无法有效解决多视角语义冲突。
vs OpenOcc/SurroundOcc：这些传统标注Pipeline依赖LiDAR+人工先验，多阶段处理复杂且耗时。AutoOcc即使仅用相机输入就全面超越它们，且标注速度快1-2个数量级。

启发与关联¶

与ideas/中开放词汇3D占据网格预测高度相关：AutoOcc验证了VLM引导+可微重建是实现开放词汇3D占据的有效路径，但AutoOcc侧重标注而非在线预测，ideas中的方向可以借鉴AutoOcc的语义注意力图设计和语义合并策略
与代价体引导的全稀疏3D占据预测互补：AutoOcc证明了稀疏表示（0.3M高斯体 vs 数百万体素）在占据任务中的巨大优势，代价体idea可以考虑结合语义感知的稀疏采样策略
AutoOcc的"用VLM自动生成标注→训练下游模型"思路为数据飞轮提供了新范式，可以极低成本生成大规模占据标注数据

评分¶

新颖性: ⭐⭐⭐⭐ 首次将VLM引导+语义感知可缩放GS用于全自动开放式占据标注，系统性整合了多个创新设计，但VLM+GS的组合在其他任务中已有先例
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集（nuScenes+KITTI）、三类方法对比（点云体素化/2D-3D投影/自监督）、零样本泛化、效率对比、消融实验、极端天气定性分析，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，Table 1的方法对比一目了然，但方法部分公式较多，某些符号定义可以更简洁
价值: ⭐⭐⭐⭐⭐ 解决了一个高度实用的问题（占据标注成本），效率提升数量级级别（30 GPU h vs 4000+人工h），开放式能力对自动驾驶安全至关重要，作为Highlight当之无愧