Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene¶

会议: ECCV2024 arXiv: 2407.08569 代码: GitHub 领域: autonomous_driving 关键词: Unsupervised 3D Object Detection, LiDAR-Camera Fusion, Self-paced Learning, Pseudo Labels

一句话总结¶

提出 LiSe 方法，将 2D 图像信息引入无监督 3D 目标检测，通过自步学习（self-paced learning）中的自适应采样和弱模型聚合策略，大幅提升远距离和小目标的检测能力。

背景与动机¶

无监督 3D 目标检测旨在不使用任何标注数据的情况下发现和定位场景中的 3D 物体，对自动驾驶安全至关重要。现有方法（如 MODEST、OYSTER）主要依赖 LiDAR 点云：

LiDAR 的稀疏性问题：远距离或小尺寸目标的点云极度稀疏，返回点数极少，导致前景与背景难以区分
自训练中的偏差：迭代训练过程中，模型倾向于过拟合近距离、大尺寸等容易检测的样本，逐渐丧失对困难样本的检测能力
2D 图像的互补价值：RGB 图像纹理丰富，开放词汇 2D 检测器对远处和小物体有很好的识别能力，可以弥补 LiDAR 的不足

作者观察到 LiDAR 和 2D 图像在不同距离和不同分辨率的物体上具有互补性，因此首次尝试将两者融合用于无监督 3D 检测任务。

核心问题¶

如何在无监督设定下有效融合 LiDAR 和 2D 图像信息来生成高质量伪标签？
自训练过程中模型对常见/容易样本的过拟合导致长尾样本（远距离、小体积物体）检测能力下降。
不同轮次训练得到的模型各有偏好，如何将多个"弱模型"整合为一个全面的"强模型"？

方法详解¶

整体框架¶

LiSe 由三个核心组件构成：LiDAR 与 2D 场景融合生成伪标签、自适应采样策略、弱模型聚合，统一在自步学习流程中。

1. LiDAR 与 2D 场景融合¶

LiDAR 伪框生成：

采用多次遍历（multi-traversal）方法：同一位置多次经过时，位置不变的点为静态背景，发生位移的点为前景物体
计算每个点的持续性分数（ppScore），低分表示动态点
构建图结构，使用改进的 DBSCAN 聚类，滤除静态簇后对前景簇拟合 3D 包围框

图像伪框生成：

使用 GroundingDINO 开放词汇检测器获取 2D 检测框
将 2D 框作为 prompt 输入 SAM（Segment Anything Model）获取精细 2D 掩码
利用相机内外参矩阵将 LiDAR 点投影到 2D 平面，保留落在掩码内的 3D 点
对保留的 3D 点使用区域生长算法聚类并拟合 3D 包围框

距离感知融合策略：

\[\mathcal{B}_{final} = \mathcal{B}_{LiDAR} \cup \{b_i \mid d(b_i) \geq d_{min},\, b_i \in \mathcal{B}_{img}\}\]

仅融合距离超过 \(d_{min}\)（实验中为 10m）的图像伪框，因为近距离 LiDAR 已足够准确，图像框反而会引入冲突。

2. 自适应采样策略（Adaptive Sampling）¶

针对自训练中模型对简单样本过拟合的问题：

距离-体积度量：按距离（近 0-30m / 远 >30m）和体积（小 <5m³ / 大 >5m³）将物体分为四组
计算训练前的初始分布 \(Q_{init}\) 和推理后的分布 \(Q\)
推理后占比增大的组（模型已擅长）→ 下一轮降采样
推理后占比减小的组（模型变差）→ 下一轮上采样

采样分数公式：

\[R(g_i) = \begin{cases} 1 - (Q(g_i) - Q_{init}(g_i)) & \text{if } Q(g_i) > Q_{init}(g_i) \\ 1 + (Q_{init}(g_i) - Q(g_i)) & \text{if } Q(g_i) \leq Q_{init}(g_i) \end{cases}\]

3. 弱模型聚合（Weak Model Aggregation）¶

不同轮次的模型因采样率不同而擅长不同类型目标（如第 \(t\) 轮擅长大物体，第 \(t+1\) 轮擅长小物体），称为"弱模型"。聚合方式：

\[\Theta_t = \lambda \cdot \Theta_{t-1} + (1 - \lambda) \cdot \theta_t \quad (T_s \leq t \leq T)\]

从第 \(T_s\) 轮开始，用聚合系数 \(\lambda\) 将当前弱模型权重与历史聚合模型加权平均，逐步构建综合能力更强的模型。实验中 \(T_s=8\)，\(\lambda=0.999\)。

自步学习整体流程¶

种子训练：用融合伪标签训练初始检测器
自训练迭代（共 \(T=10\) 轮）：上一轮模型推理 → 自适应采样调整伪标签分布 → 训练新模型 → 弱模型聚合

实验关键数据¶

骨干网络为 PointRCNN，评价指标为 AP_BEV 和 AP_3D（IoU=0.25）。

nuScenes 主要结果¶

方法	0-30m	30-50m	50-80m	0-80m
有监督上界	39.8/34.5	12.9/10.0	4.4/2.9	22.2/18.2
MODEST (T=10)	24.8/17.1	5.5/1.4	1.5/0.3	11.8/6.6
OYSTER (T=2)	26.6/19.3	4.4/1.8	1.7/0.4	12.7/8.0
LiSe (T=10)	35.0/24.0	11.4/4.4	4.8/1.3	19.8/11.4

全范围：相比 OYSTER 提升 +7.1% AP_BEV 和 +3.4% AP_3D
远距离（50-80m）：AP_BEV 4.8% 超越有监督模型的 4.4%

Lyft 主要结果¶

方法	0-30m	50-80m	0-80m
MODEST (T=10)	73.8/71.3	27.0/24.8	57.3/55.1
LiSe (T=10)	76.7/74.0	46.6/43.7	65.6/62.5

远距离（50-80m）提升 +19.4% AP_BEV 和 +18.9% AP_3D，效果极其显著

消融实验关键发现¶

单独使用 2D 伪框在近距离不如 LiDAR，但融合后全面提升
距离感知融合中 >10m 阈值最优，避免近距离模态冲突
自适应采样中距离和体积两个因子互补，联合使用效果最佳
弱模型聚合从较晚轮次（\(T_s=8\)）开始、使用大 \(\lambda=0.999\)（慢更新）效果最好

亮点¶

首创 LiDAR+2D 融合的无监督 3D 检测：利用 GroundingDINO + SAM 生成图像端伪框，有效补充远距离和小目标
距离感知融合的设计简洁有效，仅引入一个阈值就解决了模态冲突问题
自适应采样从数据分布动态调整的角度缓解长尾过拟合，思路通用
弱模型聚合利用不同轮次模型的互补性，无需额外训练开销就能获得更强模型
远距离检测超越有监督方法，验证了 2D 信息在远距离感知中的独特价值

局限性 / 可改进方向¶

依赖预训练的 2D 模型：GroundingDINO 和 SAM 的质量直接影响图像端伪标签质量，在新领域可能需要适配
计算开销较大：需要运行 GroundingDINO + SAM + LiDAR 管线 + 10 轮自训练，训练成本高
融合方式较为简单：仅在伪标签层面做后融合（late fusion），未探索特征级融合的可能性
类别无关检测：当前仅检测物体的位置和大小，不区分具体类别
距离阈值 \(d_{min}\) 和体积阈值 5m³ 均为人工设定，可能不适用于所有场景

与相关工作的对比¶

对比维度	MODEST/OYSTER	运动流方法	LiSe
输入模态	仅 LiDAR	仅 LiDAR	LiDAR + 图像
伪标签来源	多次遍历/聚类	场景流	多次遍历 + 开放词汇检测 + SAM
远距离能力	弱	弱	强
训练策略	朴素自训练	单次伪标签	自步学习（自适应采样+模型聚合）
长尾处理	无	无	距离-体积自适应采样

启发与关联¶

2D 基础模型赋能 3D 感知：开放词汇检测器 + SAM 的组合为无标注 3D 检测提供了可靠的图像端先验，这种范式可以扩展到其他 3D 任务
自步学习的 3D 适配：将距离和体积等 3D 特有属性引入采样策略，是通用自步学习在 3D 领域的有效定制
弱模型聚合 vs. 模型汤：与 Model Soup 等方法类似但在自训练中在线聚合，无需额外选模过程
可以考虑将此方法扩展到开放词汇 3D 检测，利用 GroundingDINO 的文本对齐能力为伪标签赋予类别语义

评分¶

新颖性: ⭐⭐⭐⭐ — 首次在无监督 3D 检测中融合 2D 场景，自适应采样和弱模型聚合设计合理
实验充分度: ⭐⭐⭐⭐ — 在 nuScenes 和 Lyft 上验证，消融实验覆盖各组件和超参数
写作质量: ⭐⭐⭐⭐ — 结构清晰，图表直观，动机阐述充分
价值: ⭐⭐⭐⭐ — 远距离检测超越有监督方法，证明了无监督 LiDAR-Camera 融合的潜力