OpenBox: Annotate Any Bounding Boxes in 3D¶
会议: NeurIPS 2025
arXiv: 2512.01352
代码: 有(即将发布)
领域: Autonomous Driving / 3D目标检测
关键词: 3D自动标注, 开放词汇, 视觉基础模型, 点云, 自动驾驶
一句话总结¶
提出 OpenBox,一种两阶段自动 3D 边界框标注流水线:先通过跨模态实例对齐将 2D 视觉基础模型的实例信息映射到 3D 点云,再根据物体物理状态(静态刚体/动态刚体/可变形体)自适应生成高质量 3D 边界框,无需自训练(self-training)迭代。
研究背景与动机¶
领域现状:3D 目标检测是自动驾驶的核心组件,但大规模 3D 标注成本极高。无监督/开放词汇 3D 目标检测近年受到关注。
现有痛点: - 现有无监督方法(MODEST、OYSTER、CPD)统一处理所有物体的边界框生成,忽略物体的物理属性(刚性/可变形、静态/动态),导致标注质量差。 - 多数方法需要多轮自训练迭代来优化标注,计算开销大。 - LiSe 等多模态方法在输出层面融合不同模态的 3D 框,缺乏几何对齐。
核心矛盾:LiDAR 提供精确几何但缺乏语义 vs. 2D 图像语义丰富但缺乏 3D 信息。
本文目标:无需人工标注和自训练迭代,自动生成高质量、多类别的 3D 边界框标注。
切入角度:利用 2D 视觉基础模型(Grounding DINO + SAM2)提供强大的实例级语义信息,结合物理状态分类实现自适应框生成。
核心idea:跨模态实例对齐 + 物理状态感知的自适应 3D 框生成。
方法详解¶
整体框架¶
OpenBox 包含两个主要阶段:
阶段一:跨模态实例对齐(Cross-modal Instance Alignment) - 从 2D 图像提取实例级特征,映射到 3D 点云 - 通过上下文感知精炼(Context-aware Refinement)提高实例点云质量
阶段二:自适应 3D 边界框生成(Adaptive 3D Bounding Box Generation) - 按物理类型分类实例,针对性生成边界框
关键设计¶
-
实例级特征提取与反投影
- 功能:将 2D 检测和分割结果映射到 3D 点云空间。
- 怎么做:
- 使用 Grounding DINO 进行开放词汇 2D 检测,获取边界框 \(\mathcal{B}\) 和类别标签 \(\mathcal{C}\)
- 使用 SAM2 进行实例分割,获取分割掩码 \(\mathcal{M}\) 和跟踪 ID \(\mathcal{T}\)
- 通过相机投影矩阵 \(\Pi_j\) 将 3D 点投影到 2D 掩码上,获得实例级点云
- 采用自适应腐蚀(adaptive erosion)处理掩码边界噪声
-
上下文感知精炼(Context-aware Refinement)
- 功能:解决投影误差导致的噪声点问题。
- 为什么:LiDAR 点常被投影到遮挡前景实例的背景物体(如护栏、墙壁)上,导致不精确的反投影。
- 怎么做:
- 对去地面的原始 LiDAR 点云用 HDBSCAN 聚类得到 \(\{\mathcal{R}_1, ..., \mathcal{R}_{N'}\}\)
- 计算每个 LiDAR 聚类 \(\mathcal{R}_k\) 与实例点云 \(\mathcal{F}_i\) 之间的双向近邻包含比率
- 当互相重叠率满足阈值 \(\alpha, \beta\) 时保留聚类,否则丢弃: \(\frac{|\{p \in \mathcal{R}_k \mid \text{dist}(p, \mathcal{F}_i) < \delta\}|}{|\mathcal{R}_k|} > \alpha\)
-
物理类型分类与自适应框生成
- 功能:根据物体物理属性生成不同策略的 3D 边界框。
- 分类方式:使用 ChatGPT 根据语义类别判断刚性/可变形;使用 PP score 估计运动状态(静态/动态)。
- 三种实例类型的处理策略:
- 静态刚体:多帧聚合点云 → SDF 表面重建 → 表面感知噪声过滤(顶点级投票)→ 表面法线辅助调整尺寸 → 3D-2D IoU 对齐选择最优框
- 动态刚体:单帧点云 → 利用相邻帧位置差估计朝向 → 可见性引导的框扩展(射线-法线点积判断扩展方向)→ 标准尺寸统计约束
- 可变形体(行人、骑行者):单帧点云 → closeness-to-edge 算法紧密拟合可见区域
-
表面感知噪声过滤(Surface-aware Refinement)
- 功能:对静态刚体的聚合点云进行进一步去噪。
- 怎么做:使用 SDF(VDBFusion)重建表面 \(\mathbf{S}\),对每个顶点统计附近前景/背景点数量,保留前景主导的顶点,形成精炼表面 \(\mathbf{S}_{\text{ref}}\)。
损失函数 / 训练策略¶
OpenBox 本身是标注流水线,不涉及端到端训练。生成的标注用于训练下游 3D 检测器: - WOD: Voxel R-CNN - Lyft: PointRCNN - nuScenes: CenterPoint - 基于 OpenPCDet 和 MMDetection3D 框架
实验关键数据¶
主实验¶
WOD 验证集(AP_3D, L1)¶
| 方法 | 模态 | Vehicle IoU0.5/0.7 | Pedestrian IoU0.3/0.5 | Cyclist IoU0.3/0.5 |
|---|---|---|---|---|
| DBSCAN | LiDAR | 2.32/0.29 | 0.51/0.00 | 0.28/0.03 |
| MODEST | LiDAR | 18.51/6.46 | 11.83/0.17 | 1.47/1.14 |
| OYSTER | LiDAR | 30.48/14.66 | 4.33/0.18 | 1.27/0.33 |
| CPD | LiDAR | 57.79/37.40 | 21.91/16.31 | 5.83/5.06 |
| OpenBox* | LiDAR+Cam | 70.49/32.41 | 57.95/17.11 | 20.81/2.15 |
| Human | - | 93.31/75.70 | 87.25/77.93 | 58.84/54.88 |
Lyft 验证集(AP_3D, class-agnostic, IoU=0.25)¶
| 方法 | 0-30m | 30-50m | 50-80m | 0-80m |
|---|---|---|---|---|
| MODEST | 45.4 | 10.8 | 0.4 | 18.0 |
| LiSe | 54.0 | 22.8 | 1.2 | 27.5 |
| OpenBox | 62.3 | 50.6 | 19.5 | 43.3 |
| Human | 82.6 | 70.3 | 49.6 | 69.1 |
nuScenes 验证集(AP_3D)¶
| 方法 | Car | Pedestrian | Cyclist |
|---|---|---|---|
| UNION | 30.1 | 41.6 | 0.0 |
| OpenBox | 40.9 | 62.7 | 5.2 |
消融实验¶
点级精炼消融(WOD Vehicle, AP_3D@IoU=0.4)¶
| Surface-aware | Context-aware | AP_3D |
|---|---|---|
| ✓ | 30.34 | |
| ✓ | 32.52 | |
| ✓ | ✓ | 38.65 |
框级精炼消融¶
| Visibility-based | 3D-2D IoU | AP_3D |
|---|---|---|
| ✓ | 30.49 | |
| ✓ | 34.71 | |
| ✓ | ✓ | 38.65 |
关键发现¶
- OpenBox 在 Lyft 数据集上 AP_3D 超过 SOTA (LiSe) +15.8%(27.5→43.3),直接标注质量对比人工标注超过 LiSe +19.94%。
- 在 WOD 上 Vehicle 类 AP_3D@0.5 达到 70.49%,几乎是 CPD (30.30) 的 2.3 倍。
- Pedestrian 类提升尤为显著(WOD: 57.95 vs CPD 的 14.28),因为 OpenBox 能检测静止行人而 CPD 仅标注运动物体。
- 远距离(50-80m)场景优势最大:AP_3D 19.5 vs LiSe 的 1.2。
- 还能标注开放词汇类别(婴儿车、消防栓、狗等),超越现有数据集的预定义类别。
亮点与洞察¶
- 物理属性感知的自适应框生成是核心创新——不同状态的物体需要完全不同的处理策略,这一直觉简单但被先前方法忽视。
- 无需自训练迭代大幅降低计算成本,同时标注质量更优。
- 开放词汇能力使得方法超越固定类别集的限制,对实际驾驶安全有重要意义。
- 巧妙利用表面法线和可见性射线来判断框扩展方向,避免了暴力搜索。
局限与展望¶
- 恶劣天气(雨雾)降低 2D 视觉模型可靠性,3D 标注继承其误差。
- 可变形物体(行人、骑行者)因姿态变化大,只能回退到固定类别尺寸统计,框大小不够精确。
- 远距离场景LiDAR 点过于稀疏,框拟合不稳定。
- Cyclist 类性能仍然较弱(使用 "bicycle" 提示词导致框偏小)。
- 依赖 ChatGPT 进行物体类型分类和尺寸查询,引入了外部依赖。
相关工作与启发¶
- 2D 基础模型的 3D 迁移:Grounding DINO + SAM2 的组合已成为 2D→3D 知识迁移的标准范式。
- SDF 表面重建:VDBFusion 在自动标注中的应用展示了传统几何方法与深度学习的互补性。
- PP Score:持久性点分数(Persistence Point Score)是估计点云运动状态的有效工具。
- 启发:物理属性感知是 3D 场景理解中被低估但重要的先验知识。
评分¶
- 新颖性: ⭐⭐⭐⭐ 物理状态感知的自适应框生成策略新颖实用
- 实验充分度: ⭐⭐⭐⭐⭐ 三个大规模数据集、两种评估场景、充分消融
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图示直观
- 价值: ⭐⭐⭐⭐⭐ 自动标注质量显著优于SOTA,对降低3D标注成本有重要实际价值
相关论文¶
- [NeurIPS 2025] LabelAny3D: Label Any Object 3D in the Wild
- [NeurIPS 2025] Towards Predicting Any Human Trajectory in Context
- [CVPR 2026] HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles
- [ICLR 2026] SEAL: Segment Any Events with Language
- [NeurIPS 2025] 3EED: Ground Everything Everywhere in 3D