跳转至

OpenBox: Annotate Any Bounding Boxes in 3D

会议: NeurIPS 2025
arXiv: 2512.01352
代码: 有(即将发布)
领域: Autonomous Driving / 3D目标检测
关键词: 3D自动标注, 开放词汇, 视觉基础模型, 点云, 自动驾驶

一句话总结

提出 OpenBox,一种两阶段自动 3D 边界框标注流水线:先通过跨模态实例对齐将 2D 视觉基础模型的实例信息映射到 3D 点云,再根据物体物理状态(静态刚体/动态刚体/可变形体)自适应生成高质量 3D 边界框,无需自训练(self-training)迭代。

研究背景与动机

领域现状:3D 目标检测是自动驾驶的核心组件,但大规模 3D 标注成本极高。无监督/开放词汇 3D 目标检测近年受到关注。

现有痛点: - 现有无监督方法(MODEST、OYSTER、CPD)统一处理所有物体的边界框生成,忽略物体的物理属性(刚性/可变形、静态/动态),导致标注质量差。 - 多数方法需要多轮自训练迭代来优化标注,计算开销大。 - LiSe 等多模态方法在输出层面融合不同模态的 3D 框,缺乏几何对齐。

核心矛盾:LiDAR 提供精确几何但缺乏语义 vs. 2D 图像语义丰富但缺乏 3D 信息。

本文目标:无需人工标注和自训练迭代,自动生成高质量、多类别的 3D 边界框标注。

切入角度:利用 2D 视觉基础模型(Grounding DINO + SAM2)提供强大的实例级语义信息,结合物理状态分类实现自适应框生成。

核心idea:跨模态实例对齐 + 物理状态感知的自适应 3D 框生成。

方法详解

整体框架

OpenBox 包含两个主要阶段:

阶段一:跨模态实例对齐(Cross-modal Instance Alignment) - 从 2D 图像提取实例级特征,映射到 3D 点云 - 通过上下文感知精炼(Context-aware Refinement)提高实例点云质量

阶段二:自适应 3D 边界框生成(Adaptive 3D Bounding Box Generation) - 按物理类型分类实例,针对性生成边界框

关键设计

  1. 实例级特征提取与反投影

    • 功能:将 2D 检测和分割结果映射到 3D 点云空间。
    • 怎么做
      • 使用 Grounding DINO 进行开放词汇 2D 检测,获取边界框 \(\mathcal{B}\) 和类别标签 \(\mathcal{C}\)
      • 使用 SAM2 进行实例分割,获取分割掩码 \(\mathcal{M}\) 和跟踪 ID \(\mathcal{T}\)
      • 通过相机投影矩阵 \(\Pi_j\) 将 3D 点投影到 2D 掩码上,获得实例级点云
      • 采用自适应腐蚀(adaptive erosion)处理掩码边界噪声
  2. 上下文感知精炼(Context-aware Refinement)

    • 功能:解决投影误差导致的噪声点问题。
    • 为什么:LiDAR 点常被投影到遮挡前景实例的背景物体(如护栏、墙壁)上,导致不精确的反投影。
    • 怎么做
      • 对去地面的原始 LiDAR 点云用 HDBSCAN 聚类得到 \(\{\mathcal{R}_1, ..., \mathcal{R}_{N'}\}\)
      • 计算每个 LiDAR 聚类 \(\mathcal{R}_k\) 与实例点云 \(\mathcal{F}_i\) 之间的双向近邻包含比率
      • 当互相重叠率满足阈值 \(\alpha, \beta\) 时保留聚类,否则丢弃: \(\frac{|\{p \in \mathcal{R}_k \mid \text{dist}(p, \mathcal{F}_i) < \delta\}|}{|\mathcal{R}_k|} > \alpha\)
  3. 物理类型分类与自适应框生成

    • 功能:根据物体物理属性生成不同策略的 3D 边界框。
    • 分类方式:使用 ChatGPT 根据语义类别判断刚性/可变形;使用 PP score 估计运动状态(静态/动态)。
    • 三种实例类型的处理策略
      • 静态刚体:多帧聚合点云 → SDF 表面重建 → 表面感知噪声过滤(顶点级投票)→ 表面法线辅助调整尺寸 → 3D-2D IoU 对齐选择最优框
      • 动态刚体:单帧点云 → 利用相邻帧位置差估计朝向 → 可见性引导的框扩展(射线-法线点积判断扩展方向)→ 标准尺寸统计约束
      • 可变形体(行人、骑行者):单帧点云 → closeness-to-edge 算法紧密拟合可见区域
  4. 表面感知噪声过滤(Surface-aware Refinement)

    • 功能:对静态刚体的聚合点云进行进一步去噪。
    • 怎么做:使用 SDF(VDBFusion)重建表面 \(\mathbf{S}\),对每个顶点统计附近前景/背景点数量,保留前景主导的顶点,形成精炼表面 \(\mathbf{S}_{\text{ref}}\)

损失函数 / 训练策略

OpenBox 本身是标注流水线,不涉及端到端训练。生成的标注用于训练下游 3D 检测器: - WOD: Voxel R-CNN - Lyft: PointRCNN - nuScenes: CenterPoint - 基于 OpenPCDet 和 MMDetection3D 框架

实验关键数据

主实验

WOD 验证集(AP_3D, L1)

方法 模态 Vehicle IoU0.5/0.7 Pedestrian IoU0.3/0.5 Cyclist IoU0.3/0.5
DBSCAN LiDAR 2.32/0.29 0.51/0.00 0.28/0.03
MODEST LiDAR 18.51/6.46 11.83/0.17 1.47/1.14
OYSTER LiDAR 30.48/14.66 4.33/0.18 1.27/0.33
CPD LiDAR 57.79/37.40 21.91/16.31 5.83/5.06
OpenBox* LiDAR+Cam 70.49/32.41 57.95/17.11 20.81/2.15
Human - 93.31/75.70 87.25/77.93 58.84/54.88

Lyft 验证集(AP_3D, class-agnostic, IoU=0.25)

方法 0-30m 30-50m 50-80m 0-80m
MODEST 45.4 10.8 0.4 18.0
LiSe 54.0 22.8 1.2 27.5
OpenBox 62.3 50.6 19.5 43.3
Human 82.6 70.3 49.6 69.1

nuScenes 验证集(AP_3D)

方法 Car Pedestrian Cyclist
UNION 30.1 41.6 0.0
OpenBox 40.9 62.7 5.2

消融实验

点级精炼消融(WOD Vehicle, AP_3D@IoU=0.4)

Surface-aware Context-aware AP_3D
30.34
32.52
38.65

框级精炼消融

Visibility-based 3D-2D IoU AP_3D
30.49
34.71
38.65

关键发现

  • OpenBox 在 Lyft 数据集上 AP_3D 超过 SOTA (LiSe) +15.8%(27.5→43.3),直接标注质量对比人工标注超过 LiSe +19.94%
  • 在 WOD 上 Vehicle 类 AP_3D@0.5 达到 70.49%,几乎是 CPD (30.30) 的 2.3 倍。
  • Pedestrian 类提升尤为显著(WOD: 57.95 vs CPD 的 14.28),因为 OpenBox 能检测静止行人而 CPD 仅标注运动物体。
  • 远距离(50-80m)场景优势最大:AP_3D 19.5 vs LiSe 的 1.2。
  • 还能标注开放词汇类别(婴儿车、消防栓、狗等),超越现有数据集的预定义类别。

亮点与洞察

  • 物理属性感知的自适应框生成是核心创新——不同状态的物体需要完全不同的处理策略,这一直觉简单但被先前方法忽视。
  • 无需自训练迭代大幅降低计算成本,同时标注质量更优。
  • 开放词汇能力使得方法超越固定类别集的限制,对实际驾驶安全有重要意义。
  • 巧妙利用表面法线和可见性射线来判断框扩展方向,避免了暴力搜索。

局限与展望

  • 恶劣天气(雨雾)降低 2D 视觉模型可靠性,3D 标注继承其误差。
  • 可变形物体(行人、骑行者)因姿态变化大,只能回退到固定类别尺寸统计,框大小不够精确。
  • 远距离场景LiDAR 点过于稀疏,框拟合不稳定。
  • Cyclist 类性能仍然较弱(使用 "bicycle" 提示词导致框偏小)。
  • 依赖 ChatGPT 进行物体类型分类和尺寸查询,引入了外部依赖。

相关工作与启发

  • 2D 基础模型的 3D 迁移:Grounding DINO + SAM2 的组合已成为 2D→3D 知识迁移的标准范式。
  • SDF 表面重建:VDBFusion 在自动标注中的应用展示了传统几何方法与深度学习的互补性。
  • PP Score:持久性点分数(Persistence Point Score)是估计点云运动状态的有效工具。
  • 启发:物理属性感知是 3D 场景理解中被低估但重要的先验知识。

评分

  • 新颖性: ⭐⭐⭐⭐ 物理状态感知的自适应框生成策略新颖实用
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个大规模数据集、两种评估场景、充分消融
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图示直观
  • 价值: ⭐⭐⭐⭐⭐ 自动标注质量显著优于SOTA,对降低3D标注成本有重要实际价值

相关论文