跳转至

SP3D: Boosting Sparsely-Supervised 3D Object Detection via Accurate Cross-Modal Semantic Prompts

会议: CVPR 2025
arXiv: 2503.06467
代码: GitHub
领域: 3d_vision
关键词: 稀疏监督, 3D目标检测, 跨模态语义提示, 伪标签生成, 大多模态模型

一句话总结

提出 SP3D 两阶段训练策略,利用大多模态模型 (LMMs) 生成精确跨模态语义提示,通过动态聚类伪标签生成和分布形状评分,在极低标注率(2%)下大幅提升稀疏监督 3D 目标检测性能。

研究背景与动机

稀疏监督 3D 目标检测旨在用极少量标注训练 3D 检测器,减少对昂贵人工标注的依赖。现有方法面临以下挑战:

  1. 极低标注下特征区分度不足:当标注率极低(如 2%)时,现有方法(如 CoIn)难以从有限标注中学到足够的特征判别能力
  2. 语义歧义问题:将 2D 图像语义直接转移到 3D 点云时,实例边缘处存在显著噪声(因深度遮挡和相机标定误差)
  3. 伪标签质量评估困难:缺乏 ground truth 使得评估生成伪标签的质量非常困难

本文受 LMMs 在 2D 任务中的成功启发,提出利用 LMMs 的跨模态先验知识来增强 3D 检测器在稀疏监督场景下的特征区分能力。

方法详解

整体框架

SP3D 采用两阶段训练策略:第一阶段利用 LMMs 生成的伪标签预训练 3D 检测器,使其获得基本的特征分辨能力;第二阶段用少量精确标注进行微调。核心流程包含三个模块:CPST(可信点语义转移)、DCPG(动态聚类伪标签生成)和 DS Score(分布形状评分)。

关键设计

1. 可信点语义转移模块 (CPST)

  • 功能:从 2D 图像中提取精确的前景语义信息并转移到 3D 点云,生成准确的跨模态语义提示(种子点)
  • 核心思路:首先用 FastSAM 分割图像获得 class-agnostic masks,再用 SemanticSAM 为每个 mask 生成描述,通过与类别文本的余弦相似度筛选前景 mask。关键创新是边界约束 mask 收缩操作:对前景 mask 进行收缩(\(\gamma = 0.3\)),只保留中心区域,过滤掉语义模糊的边缘点
  • 设计动机:直接将 2D 语义投射到 3D 会在实例边缘引入大量噪声。通过 mask 收缩仅保留高置信度中心区域,确保转移到点云上的语义提示准确可靠

2. 动态聚类伪标签生成模块 (DCPG)

  • 功能:基于种子点的多尺度邻域几何形状,动态生成完整的 3D 边界框伪标签
  • 核心思路:对每个种子点 \(p_t\),使用动态更新的聚类半径 \(r = r_{\text{init}} \cdot \frac{t}{N^{(k)}} + \delta\) 进行 DBSCAN 聚类,对聚类结果拟合边界框。通过遍历所有种子点和多尺度半径,生成一组伪标签提案
  • 设计动机:固定聚类半径要么导致前景信息不完整,要么引入过多背景噪声。动态半径从小到大变化,捕获多尺度感受野下的前景信息

3. 分布形状评分 (DS Score)

  • 功能:在缺乏 ground truth 的情况下评估伪标签质量,替代 NMS 中的 IoU 评分
  • 核心思路:结合两个无监督先验——(1)分布约束评分 \(s_{dc}\):高质量框内点到边界的距离应服从 \(\mathcal{N}(0.8, 0.2)\);(2)元形状约束评分 \(s_{msc}\):框的形状应与该类别的模板形状一致,用 KL 散度衡量偏差。\(\text{DS}(\hat{b}) = \lambda_1 \bar{s}_{dc} + \lambda_2 \bar{s}_{msc}\)
  • 设计动机:无法计算预测框与 GT 的 IoU,因此利用物理世界的先验知识(点云分布特性和类别尺寸模板)来评估伪标签质量

损失函数

采用 CoIn 的对比学习损失训练框架。第一阶段用 SP3D 生成的伪标签训练;第二阶段用稀疏精确标签微调。训练基于 OpenPCDet 框架,使用 VoxelRCNN/CenterPoint/CasA 等检测器。

实验关键数据

主实验:KITTI val split(2% 标注率)

方法 Car Easy Car Mod. Car Hard Ped. Easy Ped. Mod. Cyc. Easy
VoxelRCNN (fully-sup.) 92.3 84.9 82.6 69.6 63.0 88.7
VoxelRCNN (2%) 70.5 54.9 44.8 42.6 38.5 73.3
CoIn (2%) 89.1 70.2 55.6 50.8 45.2 80.2
CoIn++ (2%) 92.0 79.5 71.5 46.7 36.1 82.0
CoIn++ + SP3D (2%) 91.3 80.5 74.0 67.4 58.7 92.5

不同检测器架构的提升效果

基础检测器 无 SP3D (Mod.) 有 SP3D (Mod.) 提升
CenterPoint 54.82 69.24 +14.42
Voxel-RCNN 68.47 74.89 +6.42
CasA 75.32 75.94 +0.62

零样本性能(无微调)

方法 Car Easy @0.5 Car Mod. @0.5 Car Easy @0.7 Car Mod. @0.7
VS3D 40.32 37.36 9.09 5.73
WS3DPR - - 60.01 44.48
SP3D 93.75 76.36 69.71 48.65

关键发现

  • SP3D 对弱检测器提升更大(CenterPoint +14.42 vs CasA +0.62),说明 SP3D 主要解决初始特征区分度不足的问题
  • 零样本设置下 SP3D 大幅超越 VS3D 和 WS3DPR,验证跨模态语义提示的有效性
  • 在 Cyclist 类别上提升尤为显著(+12.5 AP),因为该类别标注最稀疏

亮点与洞察

  1. 两阶段策略设计精巧:用 LMMs 伪标签预热再用少量精确标签微调,巧妙解决了极低标注率下的冷启动问题
  2. 边界收缩的简洁有效:通过 mask 收缩解决 2D-3D 语义转移噪声问题,思路简单但效果显著
  3. 无监督质量评估巧妙:DS Score 仅利用几何分布先验和类别形状模板评估伪标签质量,无需 GT

局限与展望

  • CPST 依赖 2D-3D 标定矩阵的准确性,标定误差会影响语义转移质量
  • 动态聚类半径 \(r_{\text{init}}\) 和收缩因子 \(\gamma\) 需要手动设置
  • 对更复杂的类别(如行人密集场景)可能效果有限
  • 未来可探索直接将 LMMs 特征融入点云特征空间

相关工作与启发

  • CoIn:稀疏监督基线方法,SP3D 在其基础上通过预训练阶段增强特征区分度
  • ULIP/CLIP2Scene:将 2D LMMs 知识迁移到 3D,但主要聚焦分类而非检测
  • SAM3D:用 SAM 分割 BEV 图像进行 3D 检测,但精度有限

评分

⭐⭐⭐⭐ — 在极低标注率下取得显著提升,两阶段策略和无监督质量评估思路新颖。对不同检测器架构的全面实验验证也很扎实。

相关论文