Retrieving Objects from 3D Scenes with Box-Guided Open-Vocabulary Instance Segmentation¶

会议: AAAI 2026
arXiv: 2512.19088
代码: https://github.com/ndkhanh360/BoxOVIS
领域: 3D视觉
关键词: 开放词汇3D实例分割, 3D目标检索, 超点, YOLO-World, 2D-to-3D提升

一句话总结¶

提出 Box-Guided 方法，利用 2D 开放词汇检测器 YOLO-World 的检测框引导从超点构建 3D 实例 mask，无需 SAM 和 CLIP，在保持高效（<1分钟/场景）的同时显著提升对低频类别目标的检索能力。

研究背景与动机¶

领域现状¶

开放词汇 3D 实例分割 (OV-3DIS) 旨在根据文本查询在 3D 点云中检索任意类别的目标，是机器人和增强现实中的核心问题。现有方法主要分为两类：

基于 SAM+CLIP 的方法（OpenMask3D、Open3DIS、OVIR-3D）：用 SAM 生成 2D mask → 提升到 3D → 用 CLIP 分类。精度不错但极慢（5-10 分钟/场景），实际部署不可行。
高效方法 Open-YOLO 3D：用预训练 3D 分割器 Mask3D 生成类别无关 mask + YOLO-World 做分类，约 22 秒/场景，去掉了 SAM 和 CLIP。

现有痛点¶

Open-YOLO 3D 虽然快但存在关键缺陷：完全依赖 Mask3D（预训练 3D 分割器）生成 3D 候选 mask。由于 3D 训练数据有限（ScanNet 等数据集类别覆盖不全），Mask3D 对低频/罕见类别（如日历、温度计等）经常漏检。2D 检测器（YOLO-World）虽然能识别这些物体，但 Open-YOLO 3D 仅用其做分类，不用来生成新 mask。

核心矛盾与切入角度¶

矛盾：3D 分割器泛化能力有限 vs 2D 检测器有丰富的世界知识。本文的核心想法是：用 2D 检测器的检测框引导从 3D 超点构建新的实例 mask——继承 2D 模型的泛化能力，同时不依赖 SAM（保持高效）。

方法详解¶

整体框架¶

输入：3D 点云 \(P\) + 多视角 RGB-D 图像 + 相机内外参 + 文本查询。输出：匹配查询的 3D 实例 mask。

流程： 1. 用图分割算法生成 3D 超点（几何一致的区域） 2. 用 Mask3D 生成 point-based mask（传统路径） 3. 用 YOLO-World 对 RGB 图生成 2D 检测框 4. Box-Guided RGBD-Based Mask Generation：从 2D 框提升到 3D，用超点组装新实例 mask 5. 合并两种 mask，用检测框结果做分类

关键设计¶

1. Box-Guided RGBD-Based Mask Generation（框引导的新实例发现）¶

功能：为 3D 分割器漏检的罕见物体生成 3D mask。

核心流程：

(a) 2D 框提升到 3D： - 对每帧 RGB 图，YOLO-World 生成检测框 \(B_i = \{(b_{ij}, c_{ij})\}\) - 将框内像素通过深度信息 + 相机参数投影到 3D - 用 Open3D 计算包含所有投影点的 3D 有向包围盒 \(b_{ij}^{3D}\)

(b) 冗余过滤： - 如果 3D 框与已有 point-based mask 的交集 > \(\tau_{\text{box}}\%\)，说明该物体已被 3D 分割器检测到，丢弃此框

(c) 超点组装： - 提取框内的超点：如果某超点 \(\geq \tau_{\text{spp}}\%\) 的点在框内，则归属该框 - 得到每个框的粗糙 mask \(S_{ij}\)

(d) 跨帧合并： - 逐帧处理，如果新 mask 与已有候选的 IoU \(\geq \tau_{\text{merge}}\) 且类别相同，则合并超点；否则作为新候选加入 - 最终再做一轮过滤：与 point-based mask 的 IoU > \(\tau_{\text{filter}}\) 的新 mask 被丢弃（优先保留几何质量更高的 point-based mask）

设计动机： - 不用 SAM 而用超点组装：超点基于高效的图分割算法（Felzenszwalb），计算成本远低于 SAM - 冗余过滤确保新 mask 补充而非替代 3D 分割器的输出——已检测到的物体保留更准确的 point-based mask

2. Box-Based Mask Classification（基于框的分类）¶

功能：为每个 3D 候选 mask 分配类别标签。

沿用 Open-YOLO 3D 的方案，完全不用 CLIP： - 构建标签图：对每帧，将检测框区域填入对应类别标签，大框先填、小框覆盖（直觉：小物体如果可见，一定比大物体更靠近相机） - 计算可见性：一次性投影所有 3D 点到所有帧，计算帧内可见性和遮挡可见性 - 聚合类别分布：对每个 3D mask，在 top-k 可见帧中统计投影点落入的类别标签，取出现频率最高的类别

损失函数 / 训练策略¶

本文为无训练/zero-shot 方法，不需要训练。使用的预训练模型： - Mask3D：ScanNet 上预训练的类别无关 3D 实例分割器 - YOLO-World extra-large：开放词汇 2D 检测器 - 图分割：Felzenszwalb & Huttenlocher (2004) 的经典算法

推理设置： - ScanNet200：每 10 帧取 1 帧做 YOLO-World 检测 - Replica：所有帧都检测 - 超点生成时图像下采样 5 倍提高效率

实验关键数据¶

主实验¶

ScanNet200 验证集：

方法	SAM	CLIP	mAP	mAP50	mAP25	mAP_tail	时间/场景
OpenMask3D	✓	✓	15.4	19.9	23.1	14.9	553.87s
Open3DIS	✓	✓	23.7	29.4	32.8	21.8	360.12s
Open-YOLO 3D	×	×	24.7	31.7	36.2	21.6	21.8s
Ours	×	×	24.9	32.1	36.8	22.4	55.9s

相比 Open-YOLO 3D：mAP +0.2, mAP50 +0.4, mAP25 +0.6, tail 类 mAP +0.8
速度虽慢于 Open-YOLO 3D（55.9s vs 21.8s），但远快于 SAM/CLIP 方法（360s+）

Replica 数据集：

方法	mAP	mAP50	mAP25	时间/场景
OpenMask3D	13.1	18.4	24.2	547.32s
Open3DIS	18.5	24.5	28.2	187.97s
Open-YOLO 3D	23.7	28.6	34.8	16.6s
Ours	24.0	31.8	37.4	43.7s

在 Replica 上 mAP50 提升 +3.2, mAP25 +2.6，提升更明显。

消融实验¶

论文未列出正式消融表格，但从方法对比和讨论中可提取关键消融信息：

配置	关键变化	效果说明
仅 point-based mask (Open-YOLO 3D)	无 RGBD-based mask	tail 类 mAP 21.6，漏检罕见物体
+ Box-guided RGBD mask (Ours)	增加新实例发现	tail 类 mAP 22.4 (+0.8)，能检测罕见物体如"calendar"
RGBD mask 质量	基于超点而非 SAM	IoU 50/25 提升大，但严格 IoU 下质量稍差

关键发现¶

tail 类别是关键差距：在 ScanNet200 的 head 类别上差异不大（甚至略低 -0.2），但在 tail 类别上明确提升（+0.8），验证了"3D 分割器对罕见物体泛化差"的核心假设
低 IoU 阈值提升更大：mAP25 > mAP50 > mAP 的提升幅度递减，因为超点组装的 mask 边界不如 SAM 精细
可视化明确展示了 Open-YOLO 3D 完全无法检测的"calendar"目标，本文方法能成功检索

亮点与洞察¶

设计哲学清晰：不追求所有组件的最优，而是在效率和泛化能力之间找到实用的平衡点
无需额外训练：整个方法是 zero-shot 的，不需要任何 3D 数据上的训练，仅组合现有预训练模型
超点替代 SAM：优雅地解决了 2D mask 到 3D 提升的效率问题。超点基于经典图分割算法，远比 SAM 高效
增量设计：新 mask 补充 point-based mask 而非替代，保留了 3D 分割器在常见类别上的几何精度优势

局限与展望¶

速度瓶颈：主要在 Open3D 计算 3D 有向包围盒，作者提到开发 GPU 加速实现是重要方向
mask 质量：超点组装的 mask 在高 IoU 阈值下精度不足，未来可探索仅对最终候选做 SAM 精修
消融不充分：缺少各超参数（\(\tau_{\text{box}}, \tau_{\text{spp}}, \tau_{\text{merge}}, \tau_{\text{filter}}\)）的敏感性分析
仅室内：ScanNet200 和 Replica 都是室内数据集，户外场景（如自动驾驶）未验证
mAP 的绝对提升有限（+0.2），主要价值在 tail 类别方向

评分¶

新颖性: ⭐⭐⭐ — 思路直接但有效，属于组件级优化而非范式突破
实验充分度: ⭐⭐⭐ — 两个数据集验证但缺消融，提升幅度较小
写作质量: ⭐⭐⭐⭐ — 清晰简洁，问题动机论述到位
价值: ⭐⭐⭐⭐ — 实用性强，为 3D 场景中罕见物体的检索提供了高效方案