Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene¶
会议: ECCV2024 arXiv: 2407.08569 代码: GitHub 领域: autonomous_driving 关键词: Unsupervised 3D Object Detection, LiDAR-Camera Fusion, Self-paced Learning, Pseudo Labels
一句话总结¶
提出 LiSe 方法,将 2D 图像信息引入无监督 3D 目标检测,通过自步学习(self-paced learning)中的自适应采样和弱模型聚合策略,大幅提升远距离和小目标的检测能力。
背景与动机¶
无监督 3D 目标检测旨在不使用任何标注数据的情况下发现和定位场景中的 3D 物体,对自动驾驶安全至关重要。现有方法(如 MODEST、OYSTER)主要依赖 LiDAR 点云:
- LiDAR 的稀疏性问题:远距离或小尺寸目标的点云极度稀疏,返回点数极少,导致前景与背景难以区分
- 自训练中的偏差:迭代训练过程中,模型倾向于过拟合近距离、大尺寸等容易检测的样本,逐渐丧失对困难样本的检测能力
- 2D 图像的互补价值:RGB 图像纹理丰富,开放词汇 2D 检测器对远处和小物体有很好的识别能力,可以弥补 LiDAR 的不足
作者观察到 LiDAR 和 2D 图像在不同距离和不同分辨率的物体上具有互补性,因此首次尝试将两者融合用于无监督 3D 检测任务。
核心问题¶
- 如何在无监督设定下有效融合 LiDAR 和 2D 图像信息来生成高质量伪标签?
- 自训练过程中模型对常见/容易样本的过拟合导致长尾样本(远距离、小体积物体)检测能力下降。
- 不同轮次训练得到的模型各有偏好,如何将多个"弱模型"整合为一个全面的"强模型"?
方法详解¶
整体框架¶
LiSe 由三个核心组件构成:LiDAR 与 2D 场景融合生成伪标签、自适应采样策略、弱模型聚合,统一在自步学习流程中。
1. LiDAR 与 2D 场景融合¶
LiDAR 伪框生成:
- 采用多次遍历(multi-traversal)方法:同一位置多次经过时,位置不变的点为静态背景,发生位移的点为前景物体
- 计算每个点的持续性分数(ppScore),低分表示动态点
- 构建图结构,使用改进的 DBSCAN 聚类,滤除静态簇后对前景簇拟合 3D 包围框
图像伪框生成:
- 使用 GroundingDINO 开放词汇检测器获取 2D 检测框
- 将 2D 框作为 prompt 输入 SAM(Segment Anything Model)获取精细 2D 掩码
- 利用相机内外参矩阵将 LiDAR 点投影到 2D 平面,保留落在掩码内的 3D 点
- 对保留的 3D 点使用区域生长算法聚类并拟合 3D 包围框
距离感知融合策略:
仅融合距离超过 \(d_{min}\)(实验中为 10m)的图像伪框,因为近距离 LiDAR 已足够准确,图像框反而会引入冲突。
2. 自适应采样策略(Adaptive Sampling)¶
针对自训练中模型对简单样本过拟合的问题:
- 距离-体积度量:按距离(近 0-30m / 远 >30m)和体积(小 <5m³ / 大 >5m³)将物体分为四组
- 计算训练前的初始分布 \(Q_{init}\) 和推理后的分布 \(Q\)
- 推理后占比增大的组(模型已擅长)→ 下一轮降采样
- 推理后占比减小的组(模型变差)→ 下一轮上采样
采样分数公式:
3. 弱模型聚合(Weak Model Aggregation)¶
不同轮次的模型因采样率不同而擅长不同类型目标(如第 \(t\) 轮擅长大物体,第 \(t+1\) 轮擅长小物体),称为"弱模型"。聚合方式:
从第 \(T_s\) 轮开始,用聚合系数 \(\lambda\) 将当前弱模型权重与历史聚合模型加权平均,逐步构建综合能力更强的模型。实验中 \(T_s=8\),\(\lambda=0.999\)。
自步学习整体流程¶
- 种子训练:用融合伪标签训练初始检测器
- 自训练迭代(共 \(T=10\) 轮):上一轮模型推理 → 自适应采样调整伪标签分布 → 训练新模型 → 弱模型聚合
实验关键数据¶
骨干网络为 PointRCNN,评价指标为 AP_BEV 和 AP_3D(IoU=0.25)。
nuScenes 主要结果¶
| 方法 | 0-30m | 30-50m | 50-80m | 0-80m |
|---|---|---|---|---|
| 有监督上界 | 39.8/34.5 | 12.9/10.0 | 4.4/2.9 | 22.2/18.2 |
| MODEST (T=10) | 24.8/17.1 | 5.5/1.4 | 1.5/0.3 | 11.8/6.6 |
| OYSTER (T=2) | 26.6/19.3 | 4.4/1.8 | 1.7/0.4 | 12.7/8.0 |
| LiSe (T=10) | 35.0/24.0 | 11.4/4.4 | 4.8/1.3 | 19.8/11.4 |
- 全范围:相比 OYSTER 提升 +7.1% AP_BEV 和 +3.4% AP_3D
- 远距离(50-80m):AP_BEV 4.8% 超越有监督模型的 4.4%
Lyft 主要结果¶
| 方法 | 0-30m | 50-80m | 0-80m |
|---|---|---|---|
| MODEST (T=10) | 73.8/71.3 | 27.0/24.8 | 57.3/55.1 |
| LiSe (T=10) | 76.7/74.0 | 46.6/43.7 | 65.6/62.5 |
- 远距离(50-80m)提升 +19.4% AP_BEV 和 +18.9% AP_3D,效果极其显著
消融实验关键发现¶
- 单独使用 2D 伪框在近距离不如 LiDAR,但融合后全面提升
- 距离感知融合中 >10m 阈值最优,避免近距离模态冲突
- 自适应采样中距离和体积两个因子互补,联合使用效果最佳
- 弱模型聚合从较晚轮次(\(T_s=8\))开始、使用大 \(\lambda=0.999\)(慢更新)效果最好
亮点¶
- 首创 LiDAR+2D 融合的无监督 3D 检测:利用 GroundingDINO + SAM 生成图像端伪框,有效补充远距离和小目标
- 距离感知融合的设计简洁有效,仅引入一个阈值就解决了模态冲突问题
- 自适应采样从数据分布动态调整的角度缓解长尾过拟合,思路通用
- 弱模型聚合利用不同轮次模型的互补性,无需额外训练开销就能获得更强模型
- 远距离检测超越有监督方法,验证了 2D 信息在远距离感知中的独特价值
局限性 / 可改进方向¶
- 依赖预训练的 2D 模型:GroundingDINO 和 SAM 的质量直接影响图像端伪标签质量,在新领域可能需要适配
- 计算开销较大:需要运行 GroundingDINO + SAM + LiDAR 管线 + 10 轮自训练,训练成本高
- 融合方式较为简单:仅在伪标签层面做后融合(late fusion),未探索特征级融合的可能性
- 类别无关检测:当前仅检测物体的位置和大小,不区分具体类别
- 距离阈值 \(d_{min}\) 和体积阈值 5m³ 均为人工设定,可能不适用于所有场景
与相关工作的对比¶
| 对比维度 | MODEST/OYSTER | 运动流方法 | LiSe |
|---|---|---|---|
| 输入模态 | 仅 LiDAR | 仅 LiDAR | LiDAR + 图像 |
| 伪标签来源 | 多次遍历/聚类 | 场景流 | 多次遍历 + 开放词汇检测 + SAM |
| 远距离能力 | 弱 | 弱 | 强 |
| 训练策略 | 朴素自训练 | 单次伪标签 | 自步学习(自适应采样+模型聚合) |
| 长尾处理 | 无 | 无 | 距离-体积自适应采样 |
启发与关联¶
- 2D 基础模型赋能 3D 感知:开放词汇检测器 + SAM 的组合为无标注 3D 检测提供了可靠的图像端先验,这种范式可以扩展到其他 3D 任务
- 自步学习的 3D 适配:将距离和体积等 3D 特有属性引入采样策略,是通用自步学习在 3D 领域的有效定制
- 弱模型聚合 vs. 模型汤:与 Model Soup 等方法类似但在自训练中在线聚合,无需额外选模过程
- 可以考虑将此方法扩展到开放词汇 3D 检测,利用 GroundingDINO 的文本对齐能力为伪标签赋予类别语义
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次在无监督 3D 检测中融合 2D 场景,自适应采样和弱模型聚合设计合理
- 实验充分度: ⭐⭐⭐⭐ — 在 nuScenes 和 Lyft 上验证,消融实验覆盖各组件和超参数
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,图表直观,动机阐述充分
- 价值: ⭐⭐⭐⭐ — 远距离检测超越有监督方法,证明了无监督 LiDAR-Camera 融合的潜力