OpenBox: Annotate Any Bounding Boxes in 3D¶

会议: NeurIPS 2025
arXiv: 2512.01352
代码: 有（即将发布）
领域: Autonomous Driving / 3D目标检测
关键词: 3D自动标注, 开放词汇, 视觉基础模型, 点云, 自动驾驶

一句话总结¶

提出 OpenBox，一种两阶段自动 3D 边界框标注流水线：先通过跨模态实例对齐将 2D 视觉基础模型的实例信息映射到 3D 点云，再根据物体物理状态（静态刚体/动态刚体/可变形体）自适应生成高质量 3D 边界框，无需自训练（self-training）迭代。

研究背景与动机¶

领域现状：3D 目标检测是自动驾驶的核心组件，但大规模 3D 标注成本极高。无监督/开放词汇 3D 目标检测近年受到关注。

现有痛点： - 现有无监督方法（MODEST、OYSTER、CPD）统一处理所有物体的边界框生成，忽略物体的物理属性（刚性/可变形、静态/动态），导致标注质量差。 - 多数方法需要多轮自训练迭代来优化标注，计算开销大。 - LiSe 等多模态方法在输出层面融合不同模态的 3D 框，缺乏几何对齐。

核心矛盾：LiDAR 提供精确几何但缺乏语义 vs. 2D 图像语义丰富但缺乏 3D 信息。

本文目标：无需人工标注和自训练迭代，自动生成高质量、多类别的 3D 边界框标注。

切入角度：利用 2D 视觉基础模型（Grounding DINO + SAM2）提供强大的实例级语义信息，结合物理状态分类实现自适应框生成。

核心idea：跨模态实例对齐 + 物理状态感知的自适应 3D 框生成。

方法详解¶

整体框架¶

OpenBox 包含两个主要阶段：

阶段一：跨模态实例对齐（Cross-modal Instance Alignment） - 从 2D 图像提取实例级特征，映射到 3D 点云 - 通过上下文感知精炼（Context-aware Refinement）提高实例点云质量

阶段二：自适应 3D 边界框生成（Adaptive 3D Bounding Box Generation） - 按物理类型分类实例，针对性生成边界框

关键设计¶

实例级特征提取与反投影
- 功能：将 2D 检测和分割结果映射到 3D 点云空间。
- 怎么做：
  - 使用 Grounding DINO 进行开放词汇 2D 检测，获取边界框 \(\mathcal{B}\) 和类别标签 \(\mathcal{C}\)
  - 使用 SAM2 进行实例分割，获取分割掩码 \(\mathcal{M}\) 和跟踪 ID \(\mathcal{T}\)
  - 通过相机投影矩阵 \(\Pi_j\) 将 3D 点投影到 2D 掩码上，获得实例级点云
  - 采用自适应腐蚀（adaptive erosion）处理掩码边界噪声
上下文感知精炼（Context-aware Refinement）
- 功能：解决投影误差导致的噪声点问题。
- 为什么：LiDAR 点常被投影到遮挡前景实例的背景物体（如护栏、墙壁）上，导致不精确的反投影。
- 怎么做：
  - 对去地面的原始 LiDAR 点云用 HDBSCAN 聚类得到 \(\{\mathcal{R}_1, ..., \mathcal{R}_{N'}\}\)
  - 计算每个 LiDAR 聚类 \(\mathcal{R}_k\) 与实例点云 \(\mathcal{F}_i\) 之间的双向近邻包含比率
  - 当互相重叠率满足阈值 \(\alpha, \beta\) 时保留聚类，否则丢弃： \(\frac{|\{p \in \mathcal{R}_k \mid \text{dist}(p, \mathcal{F}_i) < \delta\}|}{|\mathcal{R}_k|} > \alpha\)
物理类型分类与自适应框生成
- 功能：根据物体物理属性生成不同策略的 3D 边界框。
- 分类方式：使用 ChatGPT 根据语义类别判断刚性/可变形；使用 PP score 估计运动状态（静态/动态）。
- 三种实例类型的处理策略：
  - 静态刚体：多帧聚合点云 → SDF 表面重建 → 表面感知噪声过滤（顶点级投票）→ 表面法线辅助调整尺寸 → 3D-2D IoU 对齐选择最优框
  - 动态刚体：单帧点云 → 利用相邻帧位置差估计朝向 → 可见性引导的框扩展（射线-法线点积判断扩展方向）→ 标准尺寸统计约束
  - 可变形体（行人、骑行者）：单帧点云 → closeness-to-edge 算法紧密拟合可见区域
表面感知噪声过滤（Surface-aware Refinement）
- 功能：对静态刚体的聚合点云进行进一步去噪。
- 怎么做：使用 SDF（VDBFusion）重建表面 \(\mathbf{S}\)，对每个顶点统计附近前景/背景点数量，保留前景主导的顶点，形成精炼表面 \(\mathbf{S}_{\text{ref}}\)。

损失函数 / 训练策略¶

OpenBox 本身是标注流水线，不涉及端到端训练。生成的标注用于训练下游 3D 检测器： - WOD: Voxel R-CNN - Lyft: PointRCNN - nuScenes: CenterPoint - 基于 OpenPCDet 和 MMDetection3D 框架

实验关键数据¶

主实验¶

WOD 验证集（AP_3D, L1）¶

方法	模态	Vehicle IoU0.5/0.7	Pedestrian IoU0.3/0.5	Cyclist IoU0.3/0.5
DBSCAN	LiDAR	2.32/0.29	0.51/0.00	0.28/0.03
MODEST	LiDAR	18.51/6.46	11.83/0.17	1.47/1.14
OYSTER	LiDAR	30.48/14.66	4.33/0.18	1.27/0.33
CPD	LiDAR	57.79/37.40	21.91/16.31	5.83/5.06
OpenBox*	LiDAR+Cam	70.49/32.41	57.95/17.11	20.81/2.15
Human	-	93.31/75.70	87.25/77.93	58.84/54.88

Lyft 验证集（AP_3D, class-agnostic, IoU=0.25）¶

方法	0-30m	30-50m	50-80m	0-80m
MODEST	45.4	10.8	0.4	18.0
LiSe	54.0	22.8	1.2	27.5
OpenBox	62.3	50.6	19.5	43.3
Human	82.6	70.3	49.6	69.1

nuScenes 验证集（AP_3D）¶

方法	Car	Pedestrian	Cyclist
UNION	30.1	41.6	0.0
OpenBox	40.9	62.7	5.2

消融实验¶

点级精炼消融（WOD Vehicle, AP_3D@IoU=0.4）¶

Surface-aware	Context-aware	AP_3D
✓		30.34
	✓	32.52
✓	✓	38.65

框级精炼消融¶

Visibility-based	3D-2D IoU	AP_3D
✓		30.49
	✓	34.71
✓	✓	38.65

关键发现¶

OpenBox 在 Lyft 数据集上 AP_3D 超过 SOTA (LiSe) +15.8%（27.5→43.3），直接标注质量对比人工标注超过 LiSe +19.94%。
在 WOD 上 Vehicle 类 AP_3D@0.5 达到 70.49%，几乎是 CPD (30.30) 的 2.3 倍。
Pedestrian 类提升尤为显著（WOD: 57.95 vs CPD 的 14.28），因为 OpenBox 能检测静止行人而 CPD 仅标注运动物体。
远距离（50-80m）场景优势最大：AP_3D 19.5 vs LiSe 的 1.2。
还能标注开放词汇类别（婴儿车、消防栓、狗等），超越现有数据集的预定义类别。

亮点与洞察¶

物理属性感知的自适应框生成是核心创新——不同状态的物体需要完全不同的处理策略，这一直觉简单但被先前方法忽视。
无需自训练迭代大幅降低计算成本，同时标注质量更优。
开放词汇能力使得方法超越固定类别集的限制，对实际驾驶安全有重要意义。
巧妙利用表面法线和可见性射线来判断框扩展方向，避免了暴力搜索。

局限与展望¶

恶劣天气（雨雾）降低 2D 视觉模型可靠性，3D 标注继承其误差。
可变形物体（行人、骑行者）因姿态变化大，只能回退到固定类别尺寸统计，框大小不够精确。
远距离场景LiDAR 点过于稀疏，框拟合不稳定。
Cyclist 类性能仍然较弱（使用 "bicycle" 提示词导致框偏小）。
依赖 ChatGPT 进行物体类型分类和尺寸查询，引入了外部依赖。

评分¶

新颖性: ⭐⭐⭐⭐ 物理状态感知的自适应框生成策略新颖实用
实验充分度: ⭐⭐⭐⭐⭐ 三个大规模数据集、两种评估场景、充分消融
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图示直观
价值: ⭐⭐⭐⭐⭐ 自动标注质量显著优于SOTA，对降低3D标注成本有重要实际价值