跳转至

3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation

会议: CVPR 2025
arXiv: 2406.09126
代码: https://github.com/ozzyou/3D-AVS
领域: 自动驾驶 / 3D点云分割 / 开放词表
关键词: Auto-Vocabulary, LiDAR Segmentation, CLIP, Open-Vocabulary, TPSS

一句话总结

提出3D-AVS,首个针对LiDAR点云的自动词表分割方法:无需用户指定目标类别,系统自动从图像和点云中识别场景中存在的语义实体并生成词表,再用开放词表分割器完成逐点语义分割,在nuScenes和ScanNet200上展示了生成精细语义类别的能力。

背景与动机

自动驾驶感知系统通常依赖预定义类别集进行训练和推理,无法识别训练集中未覆盖的物体。开放词表分割(OVS)虽可检测任意类别,但仍需用户手动指定查询词表——这在真实驾驶场景中不切实际,因为未知物体的类别名称也是未知的。2D领域已有AutoSeg等自动词表方法,但没有扩展到3D点云。LiDAR数据的优势在于光照无关,能补充摄像头在恶劣条件下的不足。

核心问题

如何在不需要任何人工指定类别的情况下,自动发现LiDAR点云场景中存在的所有语义类别,并完成逐点分割?这是一个比开放词表分割更具挑战性的设定,因为连"想找什么"都由系统自己决定。

方法详解

整体框架

3D-AVS的pipeline分为两阶段:词表生成开放词表分割。 1. 给定LiDAR点云及对应的多视角图像,首先通过图像和点云两个分支自动识别场景中的语义实体 2. 将所有识别到的类别名合并去重,形成场景特定词表 3. 将该词表作为查询输入到开放词表3D分割器(OpenScene),完成逐点语义分割

关键设计

  1. 图像分支(Image-based Recognition):利用AutoSeg方法(基于BLIP的训练免方法)对多视角图像进行BLIP-Cluster-Caption处理——先用BLIP提取多尺度嵌入,聚类增强后用BLIP解码器生成描述,解析为名词短语作为候选类别

  2. 点云分支(Point-based Recognition with SMAP):v3引入Sparse Masked Attention Pooling(SMAP)模块,直接从LiDAR点云特征中识别语义实体。在光照不佳时几何信息更可靠,能发现仅靠图像难以识别的物体,增强识别多样性

  3. 开放词表3D分割器(OpenScene):利用预对齐到CLIP空间的点编码器,将LiDAR点特征与候选类别的文本嵌入做相似度匹配,完成逐点标签分配。无需任何额外训练

  4. TPSS评价指标:提出Text-Point Semantic Similarity——在CLIP空间中衡量自动生成的词表与点云的语义匹配度。对每个点取其与所有候选标签的最大相似度,全局取均值。该指标不依赖固定标注,能公平评估不同词表的质量

损失函数 / 训练策略

整个方法是零样本、训练免的。不需要训练——利用预训练的BLIP(图像描述)、OpenScene(点特征提取,已对齐CLIP空间)和CLIP(文本编码),所有模块冻结直接推理。

实验关键数据

nuScenes验证集(LAVE映射后)

方法 Zero-Shot User-Free mIoU mAcc
LidarMultiNet(全监督) 82.0 -
OpenScene(OVS) 42.1 61.8
3D-AVS(自动词表) 30.6 44.1

TPSS指标(越高越好)

方法 TPSS
OpenScene(用GT类别) 8.71
3D-AVS(自动生成类别) 9.26 (+6.3%)

消融实验要点

  • TPSS显示自动生成的词表比人工预定义类别在CLIP空间中更好地匹配点云语义(9.26 vs 8.71)
  • LAVE映射后mIoU下降主要因为:(1) 自动词表的精细类别被映射回粗粒度GT类别时丢失信息;(2) LLM映射本身有噪声
  • 定性结果显示3D-AVS能识别building、pole、sign等精细类别,而GT标注只有笼统的manmade

亮点

  • 开创性任务定义:首次将auto-vocabulary segmentation从2D扩展到3D LiDAR点云,消除了对人工指定查询的依赖
  • 点-图像双分支识别:融合视觉和几何信息,在光照恶劣场景中更鲁棒
  • TPSS指标:巧妙利用CLIP空间的语义对齐来评估词表质量,避免了传统mIoU依赖固定标注的局限
  • 完全训练免:所有组件均用预训练模型,无需微调即可部署

局限性 / 可改进方向

  • mIoU(30.6)与全监督(82.0)和OVS方法(42.1)差距仍然很大,说明自动词表的准确性和分割质量还有很大提升空间
  • 词表生成依赖BLIP的描述质量,对罕见或小物体可能漏检
  • LAVE评价需要LLM做映射,引入额外噪声;TPSS虽然annotation-free但取决于CLIP对齐质量
  • 当前整合方式较为简单(AutoSeg + OpenScene pipeline),缺乏端到端优化

与相关工作的对比

  • OpenScene:需要用户提供目标类别。3D-AVS在TPSS上超过OpenScene 6%,说明自动生成的类别更好,但mIoU(需LAVE映射)低11.5,因为任务设定更难
  • AutoSeg(2D AVS):3D-AVS是其3D扩展,创新主要在引入点云分支SMAP和适配3D分割器
  • CLIP2Scene / ULIP:将CLIP知识蒸馏到点编码器,是3D-AVS的底层技术基础

启发与关联

  • 自动词表的思路可推广到其他3D理解任务(3D目标检测、3D场景图生成),不必预设类别集
  • TPSS指标的设计思路可推广到其他模态对齐质量的评估

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将auto-vocabulary扩展到3D,任务定义有价值
  • 实验充分度: ⭐⭐⭐ 两个数据集,但实验偏少,缺少详细消融和更多baseline对比
  • 写作质量: ⭐⭐⭐⭐ 问题定义和motivation清晰,评价指标设计合理
  • 价值: ⭐⭐⭐ 方向有前景但当前性能差距大,更像是一个proof-of-concept