3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation¶
会议: CVPR 2025
arXiv: 2406.09126
代码: https://github.com/ozzyou/3D-AVS
领域: 自动驾驶 / 3D点云分割 / 开放词表
关键词: Auto-Vocabulary, LiDAR Segmentation, CLIP, Open-Vocabulary, TPSS
一句话总结¶
提出3D-AVS,首个针对LiDAR点云的自动词表分割方法:无需用户指定目标类别,系统自动从图像和点云中识别场景中存在的语义实体并生成词表,再用开放词表分割器完成逐点语义分割,在nuScenes和ScanNet200上展示了生成精细语义类别的能力。
背景与动机¶
自动驾驶感知系统通常依赖预定义类别集进行训练和推理,无法识别训练集中未覆盖的物体。开放词表分割(OVS)虽可检测任意类别,但仍需用户手动指定查询词表——这在真实驾驶场景中不切实际,因为未知物体的类别名称也是未知的。2D领域已有AutoSeg等自动词表方法,但没有扩展到3D点云。LiDAR数据的优势在于光照无关,能补充摄像头在恶劣条件下的不足。
核心问题¶
如何在不需要任何人工指定类别的情况下,自动发现LiDAR点云场景中存在的所有语义类别,并完成逐点分割?这是一个比开放词表分割更具挑战性的设定,因为连"想找什么"都由系统自己决定。
方法详解¶
整体框架¶
3D-AVS的pipeline分为两阶段:词表生成 → 开放词表分割。 1. 给定LiDAR点云及对应的多视角图像,首先通过图像和点云两个分支自动识别场景中的语义实体 2. 将所有识别到的类别名合并去重,形成场景特定词表 3. 将该词表作为查询输入到开放词表3D分割器(OpenScene),完成逐点语义分割
关键设计¶
-
图像分支(Image-based Recognition):利用AutoSeg方法(基于BLIP的训练免方法)对多视角图像进行BLIP-Cluster-Caption处理——先用BLIP提取多尺度嵌入,聚类增强后用BLIP解码器生成描述,解析为名词短语作为候选类别
-
点云分支(Point-based Recognition with SMAP):v3引入Sparse Masked Attention Pooling(SMAP)模块,直接从LiDAR点云特征中识别语义实体。在光照不佳时几何信息更可靠,能发现仅靠图像难以识别的物体,增强识别多样性
-
开放词表3D分割器(OpenScene):利用预对齐到CLIP空间的点编码器,将LiDAR点特征与候选类别的文本嵌入做相似度匹配,完成逐点标签分配。无需任何额外训练
-
TPSS评价指标:提出Text-Point Semantic Similarity——在CLIP空间中衡量自动生成的词表与点云的语义匹配度。对每个点取其与所有候选标签的最大相似度,全局取均值。该指标不依赖固定标注,能公平评估不同词表的质量
损失函数 / 训练策略¶
整个方法是零样本、训练免的。不需要训练——利用预训练的BLIP(图像描述)、OpenScene(点特征提取,已对齐CLIP空间)和CLIP(文本编码),所有模块冻结直接推理。
实验关键数据¶
nuScenes验证集(LAVE映射后)¶
| 方法 | Zero-Shot | User-Free | mIoU | mAcc |
|---|---|---|---|---|
| LidarMultiNet(全监督) | ✗ | ✗ | 82.0 | - |
| OpenScene(OVS) | ✓ | ✗ | 42.1 | 61.8 |
| 3D-AVS(自动词表) | ✓ | ✓ | 30.6 | 44.1 |
TPSS指标(越高越好)¶
| 方法 | TPSS |
|---|---|
| OpenScene(用GT类别) | 8.71 |
| 3D-AVS(自动生成类别) | 9.26 (+6.3%) |
消融实验要点¶
- TPSS显示自动生成的词表比人工预定义类别在CLIP空间中更好地匹配点云语义(9.26 vs 8.71)
- LAVE映射后mIoU下降主要因为:(1) 自动词表的精细类别被映射回粗粒度GT类别时丢失信息;(2) LLM映射本身有噪声
- 定性结果显示3D-AVS能识别building、pole、sign等精细类别,而GT标注只有笼统的manmade
亮点¶
- 开创性任务定义:首次将auto-vocabulary segmentation从2D扩展到3D LiDAR点云,消除了对人工指定查询的依赖
- 点-图像双分支识别:融合视觉和几何信息,在光照恶劣场景中更鲁棒
- TPSS指标:巧妙利用CLIP空间的语义对齐来评估词表质量,避免了传统mIoU依赖固定标注的局限
- 完全训练免:所有组件均用预训练模型,无需微调即可部署
局限性 / 可改进方向¶
- mIoU(30.6)与全监督(82.0)和OVS方法(42.1)差距仍然很大,说明自动词表的准确性和分割质量还有很大提升空间
- 词表生成依赖BLIP的描述质量,对罕见或小物体可能漏检
- LAVE评价需要LLM做映射,引入额外噪声;TPSS虽然annotation-free但取决于CLIP对齐质量
- 当前整合方式较为简单(AutoSeg + OpenScene pipeline),缺乏端到端优化
与相关工作的对比¶
- OpenScene:需要用户提供目标类别。3D-AVS在TPSS上超过OpenScene 6%,说明自动生成的类别更好,但mIoU(需LAVE映射)低11.5,因为任务设定更难
- AutoSeg(2D AVS):3D-AVS是其3D扩展,创新主要在引入点云分支SMAP和适配3D分割器
- CLIP2Scene / ULIP:将CLIP知识蒸馏到点编码器,是3D-AVS的底层技术基础
启发与关联¶
- 自动词表的思路可推广到其他3D理解任务(3D目标检测、3D场景图生成),不必预设类别集
- TPSS指标的设计思路可推广到其他模态对齐质量的评估
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将auto-vocabulary扩展到3D,任务定义有价值
- 实验充分度: ⭐⭐⭐ 两个数据集,但实验偏少,缺少详细消融和更多baseline对比
- 写作质量: ⭐⭐⭐⭐ 问题定义和motivation清晰,评价指标设计合理
- 价值: ⭐⭐⭐ 方向有前景但当前性能差距大,更像是一个proof-of-concept