3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation¶

会议: CVPR 2025
arXiv: 2406.09126
代码: https://github.com/ozzyou/3D-AVS
领域: 自动驾驶 / 3D点云分割 / 开放词表
关键词: Auto-Vocabulary, LiDAR Segmentation, CLIP, Open-Vocabulary, TPSS

一句话总结¶

提出3D-AVS，首个针对LiDAR点云的自动词表分割方法：无需用户指定目标类别，系统自动从图像和点云中识别场景中存在的语义实体并生成词表，再用开放词表分割器完成逐点语义分割，在nuScenes和ScanNet200上展示了生成精细语义类别的能力。

背景与动机¶

自动驾驶感知系统通常依赖预定义类别集进行训练和推理，无法识别训练集中未覆盖的物体。开放词表分割（OVS）虽可检测任意类别，但仍需用户手动指定查询词表——这在真实驾驶场景中不切实际，因为未知物体的类别名称也是未知的。2D领域已有AutoSeg等自动词表方法，但没有扩展到3D点云。LiDAR数据的优势在于光照无关，能补充摄像头在恶劣条件下的不足。

核心问题¶

如何在不需要任何人工指定类别的情况下，自动发现LiDAR点云场景中存在的所有语义类别，并完成逐点分割？这是一个比开放词表分割更具挑战性的设定，因为连"想找什么"都由系统自己决定。

方法详解¶

整体框架¶

3D-AVS的pipeline分为两阶段：词表生成 → 开放词表分割。 1. 给定LiDAR点云及对应的多视角图像，首先通过图像和点云两个分支自动识别场景中的语义实体 2. 将所有识别到的类别名合并去重，形成场景特定词表 3. 将该词表作为查询输入到开放词表3D分割器（OpenScene），完成逐点语义分割

关键设计¶

图像分支（Image-based Recognition）：利用AutoSeg方法（基于BLIP的训练免方法）对多视角图像进行BLIP-Cluster-Caption处理——先用BLIP提取多尺度嵌入，聚类增强后用BLIP解码器生成描述，解析为名词短语作为候选类别
点云分支（Point-based Recognition with SMAP）：v3引入Sparse Masked Attention Pooling（SMAP）模块，直接从LiDAR点云特征中识别语义实体。在光照不佳时几何信息更可靠，能发现仅靠图像难以识别的物体，增强识别多样性
开放词表3D分割器（OpenScene）：利用预对齐到CLIP空间的点编码器，将LiDAR点特征与候选类别的文本嵌入做相似度匹配，完成逐点标签分配。无需任何额外训练
TPSS评价指标：提出Text-Point Semantic Similarity——在CLIP空间中衡量自动生成的词表与点云的语义匹配度。对每个点取其与所有候选标签的最大相似度，全局取均值。该指标不依赖固定标注，能公平评估不同词表的质量

损失函数 / 训练策略¶

整个方法是零样本、训练免的。不需要训练——利用预训练的BLIP（图像描述）、OpenScene（点特征提取，已对齐CLIP空间）和CLIP（文本编码），所有模块冻结直接推理。

实验关键数据¶

nuScenes验证集（LAVE映射后）¶

方法	Zero-Shot	User-Free	mIoU	mAcc
LidarMultiNet（全监督）	✗	✗	82.0	-
OpenScene（OVS）	✓	✗	42.1	61.8
3D-AVS（自动词表）	✓	✓	30.6	44.1

TPSS指标（越高越好）¶

方法	TPSS
OpenScene（用GT类别）	8.71
3D-AVS（自动生成类别）	9.26 (+6.3%)

消融实验要点¶

TPSS显示自动生成的词表比人工预定义类别在CLIP空间中更好地匹配点云语义（9.26 vs 8.71）
LAVE映射后mIoU下降主要因为：(1) 自动词表的精细类别被映射回粗粒度GT类别时丢失信息；(2) LLM映射本身有噪声
定性结果显示3D-AVS能识别building、pole、sign等精细类别，而GT标注只有笼统的manmade

亮点¶

开创性任务定义：首次将auto-vocabulary segmentation从2D扩展到3D LiDAR点云，消除了对人工指定查询的依赖
点-图像双分支识别：融合视觉和几何信息，在光照恶劣场景中更鲁棒
TPSS指标：巧妙利用CLIP空间的语义对齐来评估词表质量，避免了传统mIoU依赖固定标注的局限
完全训练免：所有组件均用预训练模型，无需微调即可部署

局限性 / 可改进方向¶

mIoU（30.6）与全监督（82.0）和OVS方法（42.1）差距仍然很大，说明自动词表的准确性和分割质量还有很大提升空间
词表生成依赖BLIP的描述质量，对罕见或小物体可能漏检
LAVE评价需要LLM做映射，引入额外噪声；TPSS虽然annotation-free但取决于CLIP对齐质量
当前整合方式较为简单（AutoSeg + OpenScene pipeline），缺乏端到端优化

与相关工作的对比¶

OpenScene：需要用户提供目标类别。3D-AVS在TPSS上超过OpenScene 6%，说明自动生成的类别更好，但mIoU（需LAVE映射）低11.5，因为任务设定更难
AutoSeg（2D AVS）：3D-AVS是其3D扩展，创新主要在引入点云分支SMAP和适配3D分割器
CLIP2Scene / ULIP：将CLIP知识蒸馏到点编码器，是3D-AVS的底层技术基础

启发与关联¶

自动词表的思路可推广到其他3D理解任务（3D目标检测、3D场景图生成），不必预设类别集
TPSS指标的设计思路可推广到其他模态对齐质量的评估

评分¶

新颖性: ⭐⭐⭐⭐ 首次将auto-vocabulary扩展到3D，任务定义有价值
实验充分度: ⭐⭐⭐ 两个数据集，但实验偏少，缺少详细消融和更多baseline对比
写作质量: ⭐⭐⭐⭐ 问题定义和motivation清晰，评价指标设计合理
价值: ⭐⭐⭐ 方向有前景但当前性能差距大，更像是一个proof-of-concept