跳转至

Retrieving Objects from 3D Scenes with Box-Guided Open-Vocabulary Instance Segmentation

会议: AAAI 2026
arXiv: 2512.19088
代码: https://github.com/ndkhanh360/BoxOVIS
领域: 3D视觉
关键词: 开放词汇3D实例分割, 3D目标检索, 超点, YOLO-World, 2D-to-3D提升

一句话总结

提出 Box-Guided 方法,利用 2D 开放词汇检测器 YOLO-World 的检测框引导从超点构建 3D 实例 mask,无需 SAM 和 CLIP,在保持高效(<1分钟/场景)的同时显著提升对低频类别目标的检索能力。

研究背景与动机

领域现状

开放词汇 3D 实例分割 (OV-3DIS) 旨在根据文本查询在 3D 点云中检索任意类别的目标,是机器人和增强现实中的核心问题。现有方法主要分为两类:

  • 基于 SAM+CLIP 的方法(OpenMask3D、Open3DIS、OVIR-3D):用 SAM 生成 2D mask → 提升到 3D → 用 CLIP 分类。精度不错但极慢(5-10 分钟/场景),实际部署不可行。
  • 高效方法 Open-YOLO 3D:用预训练 3D 分割器 Mask3D 生成类别无关 mask + YOLO-World 做分类,约 22 秒/场景,去掉了 SAM 和 CLIP。

现有痛点

Open-YOLO 3D 虽然快但存在关键缺陷:完全依赖 Mask3D(预训练 3D 分割器)生成 3D 候选 mask。由于 3D 训练数据有限(ScanNet 等数据集类别覆盖不全),Mask3D 对低频/罕见类别(如日历、温度计等)经常漏检。2D 检测器(YOLO-World)虽然能识别这些物体,但 Open-YOLO 3D 仅用其做分类,不用来生成新 mask。

核心矛盾与切入角度

矛盾:3D 分割器泛化能力有限 vs 2D 检测器有丰富的世界知识。本文的核心想法是:用 2D 检测器的检测框引导从 3D 超点构建新的实例 mask——继承 2D 模型的泛化能力,同时不依赖 SAM(保持高效)。

方法详解

整体框架

输入:3D 点云 \(P\) + 多视角 RGB-D 图像 + 相机内外参 + 文本查询。 输出:匹配查询的 3D 实例 mask。

流程: 1. 用图分割算法生成 3D 超点(几何一致的区域) 2. 用 Mask3D 生成 point-based mask(传统路径) 3. 用 YOLO-World 对 RGB 图生成 2D 检测框 4. Box-Guided RGBD-Based Mask Generation:从 2D 框提升到 3D,用超点组装新实例 mask 5. 合并两种 mask,用检测框结果做分类

关键设计

1. Box-Guided RGBD-Based Mask Generation(框引导的新实例发现)

功能:为 3D 分割器漏检的罕见物体生成 3D mask。

核心流程

(a) 2D 框提升到 3D: - 对每帧 RGB 图,YOLO-World 生成检测框 \(B_i = \{(b_{ij}, c_{ij})\}\) - 将框内像素通过深度信息 + 相机参数投影到 3D - 用 Open3D 计算包含所有投影点的 3D 有向包围盒 \(b_{ij}^{3D}\)

(b) 冗余过滤: - 如果 3D 框与已有 point-based mask 的交集 > \(\tau_{\text{box}}\%\),说明该物体已被 3D 分割器检测到,丢弃此框

(c) 超点组装: - 提取框内的超点:如果某超点 \(\geq \tau_{\text{spp}}\%\) 的点在框内,则归属该框 - 得到每个框的粗糙 mask \(S_{ij}\)

(d) 跨帧合并: - 逐帧处理,如果新 mask 与已有候选的 IoU \(\geq \tau_{\text{merge}}\) 且类别相同,则合并超点;否则作为新候选加入 - 最终再做一轮过滤:与 point-based mask 的 IoU > \(\tau_{\text{filter}}\) 的新 mask 被丢弃(优先保留几何质量更高的 point-based mask)

设计动机: - 不用 SAM 而用超点组装:超点基于高效的图分割算法(Felzenszwalb),计算成本远低于 SAM - 冗余过滤确保新 mask 补充而非替代 3D 分割器的输出——已检测到的物体保留更准确的 point-based mask

2. Box-Based Mask Classification(基于框的分类)

功能:为每个 3D 候选 mask 分配类别标签。

沿用 Open-YOLO 3D 的方案,完全不用 CLIP: - 构建标签图:对每帧,将检测框区域填入对应类别标签,大框先填、小框覆盖(直觉:小物体如果可见,一定比大物体更靠近相机) - 计算可见性:一次性投影所有 3D 点到所有帧,计算帧内可见性和遮挡可见性 - 聚合类别分布:对每个 3D mask,在 top-k 可见帧中统计投影点落入的类别标签,取出现频率最高的类别

损失函数 / 训练策略

本文为无训练/zero-shot 方法,不需要训练。使用的预训练模型: - Mask3D:ScanNet 上预训练的类别无关 3D 实例分割器 - YOLO-World extra-large:开放词汇 2D 检测器 - 图分割:Felzenszwalb & Huttenlocher (2004) 的经典算法

推理设置: - ScanNet200:每 10 帧取 1 帧做 YOLO-World 检测 - Replica:所有帧都检测 - 超点生成时图像下采样 5 倍提高效率

实验关键数据

主实验

ScanNet200 验证集

方法 SAM CLIP mAP mAP50 mAP25 mAP_tail 时间/场景
OpenMask3D 15.4 19.9 23.1 14.9 553.87s
Open3DIS 23.7 29.4 32.8 21.8 360.12s
Open-YOLO 3D × × 24.7 31.7 36.2 21.6 21.8s
Ours × × 24.9 32.1 36.8 22.4 55.9s
  • 相比 Open-YOLO 3D:mAP +0.2, mAP50 +0.4, mAP25 +0.6, tail 类 mAP +0.8
  • 速度虽慢于 Open-YOLO 3D(55.9s vs 21.8s),但远快于 SAM/CLIP 方法(360s+)

Replica 数据集

方法 mAP mAP50 mAP25 时间/场景
OpenMask3D 13.1 18.4 24.2 547.32s
Open3DIS 18.5 24.5 28.2 187.97s
Open-YOLO 3D 23.7 28.6 34.8 16.6s
Ours 24.0 31.8 37.4 43.7s

在 Replica 上 mAP50 提升 +3.2, mAP25 +2.6,提升更明显。

消融实验

论文未列出正式消融表格,但从方法对比和讨论中可提取关键消融信息:

配置 关键变化 效果说明
仅 point-based mask (Open-YOLO 3D) 无 RGBD-based mask tail 类 mAP 21.6,漏检罕见物体
+ Box-guided RGBD mask (Ours) 增加新实例发现 tail 类 mAP 22.4 (+0.8),能检测罕见物体如"calendar"
RGBD mask 质量 基于超点而非 SAM IoU 50/25 提升大,但严格 IoU 下质量稍差

关键发现

  1. tail 类别是关键差距:在 ScanNet200 的 head 类别上差异不大(甚至略低 -0.2),但在 tail 类别上明确提升(+0.8),验证了"3D 分割器对罕见物体泛化差"的核心假设
  2. 低 IoU 阈值提升更大:mAP25 > mAP50 > mAP 的提升幅度递减,因为超点组装的 mask 边界不如 SAM 精细
  3. 可视化明确展示了 Open-YOLO 3D 完全无法检测的"calendar"目标,本文方法能成功检索

亮点与洞察

  1. 设计哲学清晰:不追求所有组件的最优,而是在效率和泛化能力之间找到实用的平衡点
  2. 无需额外训练:整个方法是 zero-shot 的,不需要任何 3D 数据上的训练,仅组合现有预训练模型
  3. 超点替代 SAM:优雅地解决了 2D mask 到 3D 提升的效率问题。超点基于经典图分割算法,远比 SAM 高效
  4. 增量设计:新 mask 补充 point-based mask 而非替代,保留了 3D 分割器在常见类别上的几何精度优势

局限与展望

  1. 速度瓶颈:主要在 Open3D 计算 3D 有向包围盒,作者提到开发 GPU 加速实现是重要方向
  2. mask 质量:超点组装的 mask 在高 IoU 阈值下精度不足,未来可探索仅对最终候选做 SAM 精修
  3. 消融不充分:缺少各超参数(\(\tau_{\text{box}}, \tau_{\text{spp}}, \tau_{\text{merge}}, \tau_{\text{filter}}\))的敏感性分析
  4. 仅室内:ScanNet200 和 Replica 都是室内数据集,户外场景(如自动驾驶)未验证
  5. mAP 的绝对提升有限(+0.2),主要价值在 tail 类别方向

相关工作与启发

  • Open-YOLO 3D (ICLR 2025):本文的直接前驱,证明了去掉 SAM/CLIP 的可行性
  • Open3DIS (CVPR 2024):融合 point-based 和 RGBD-based mask 的先驱,但依赖 SAM
  • YOLO-World (CVPR 2024):实时开放词汇检测器,是本文方法的核心 2D 模块
  • Felzenszwalb 图分割 (2004):20 年前的经典算法在现代 3D 理解流水线中焕发新生
  • 未来可考虑用 OpenShape 或 DuoMamba 等 3D 开放词汇分类器替代 2D 检测器分类

评分

  • 新颖性: ⭐⭐⭐ — 思路直接但有效,属于组件级优化而非范式突破
  • 实验充分度: ⭐⭐⭐ — 两个数据集验证但缺消融,提升幅度较小
  • 写作质量: ⭐⭐⭐⭐ — 清晰简洁,问题动机论述到位
  • 价值: ⭐⭐⭐⭐ — 实用性强,为 3D 场景中罕见物体的检索提供了高效方案

相关论文