Towards 3D Objectness Learning in an Open World¶

会议: NeurIPS 2025
arXiv: 2510.17686
代码: https://github.com/op3det (有)
领域: 3D Vision / Open-World Detection
关键词: 3D objectness, open-world detection, class-agnostic, cross-modal MoE, SAM

一句话总结¶

提出 OP3Det，一个无需文本提示的类无关开放世界 3D 检测器，通过 2D 基础模型进行 3D 物体发现，并设计跨模态混合专家（MoE）动态融合点云与图像特征，大幅提升新类别物体的召回率。

研究背景与动机¶

3D 感知系统（自动驾驶、机器人等）面临的核心挑战是：现实世界中物体类别不断变化，系统需要能够定位"所有"物体，而非仅限于训练时见过的类别。

现有痛点：

封闭集 3D 检测器：只能识别训练时预定义的类别，面对新类别完全失效

开放词汇 3D 检测器：依赖人工设计的文本提示进行检测，当词汇不完整或与场景不匹配时，仍无法检测所有物体，导致新类别召回率低

3D 数据稀缺：3D 点云数据在规模和标注类别上都极为有限，远不如 2D 领域丰富

核心矛盾：如何在 3D 标注类别极度有限的情况下，学习到通用的"3D 物体性"（objectness），使检测器能够发现任意类别的物体？

切入角度：既然 2D 领域有大量预训练基础模型（如 SAM）具备强大的零样本泛化能力，那么可以将 2D 模型的零样本能力迁移到 3D 领域，用于学习开放世界的 3D objectness。核心 idea 是：(1) 利用 SAM 进行类无关的 3D 物体发现来扩充训练数据，(2) 设计跨模态 MoE 动态融合多模态特征来学习通用的 3D objectness。

方法详解¶

整体框架¶

OP3Det 采用两阶段设计： 1. 3D 物体发现（训练前）：使用 SAM 在 RGB 图像上提取类无关掩码 → 多尺度点采样去噪 → 类无关 2D 检测器后处理 → 投影到 3D 空间获取新的 3D 框 2. 跨模态 MoE 训练（训练中）：体素化点云特征 \(F_P\) + 图像特征 \(F_I'\) + 多模态拼接特征 \(F_M\) → 自注意力编码 → 多模态路由器分配权重 → 模态专家加权融合 → 检测头

关键设计¶

多尺度点采样策略（Multi-scale Point Sampling）：
- 功能：解决 SAM 输出碎片化掩码的问题
- 核心思路：SAM 使用 64×64 均匀网格点提示来生成掩码，但输出往往是碎片或物体局部。因此，先根据 IoU 分数和自监督模型注意力值选择最可能属于物体的源点 \((x_s, y_s)\)，然后过滤掉 3D 距离超过阈值 \(\delta\) 的邻近点，保证局部几何一致性
- 多尺度融合：使用 \(\delta = (0.2, 0.5, 1, 2)\) 四种尺度分别采样，通过 NMS 合并结果，最后经过类无关 2D 检测器进一步过滤噪声
- 设计动机：单一尺度要么过滤不充分（小 \(\delta\)），要么排除有用物体（大 \(\delta\)），多尺度结合取长补短
跨模态混合专家（Cross-Modal MoE）：
- 功能：解决开放世界下多模态融合的问题——简单融合（拼接/相加）反而损害性能
- 核心思路：先用自注意力分别编码三种特征：\(\mathcal{F}_P = \text{SelfAttn}(F_P)\)、\(\mathcal{F}_I = \text{SelfAttn}(F_I')\)、\(\mathcal{F}_M = \text{SelfAttn}(F_M)\)。然后由多模态路由器 \(\mathcal{R}\) 基于多模态特征计算路由概率 \((p_P, p_I, p_M) = \mathcal{R}(\mathcal{F}_M)\)，最后通过三个模态专家加权融合：\(\mathcal{F} = \sum_{i \in (P,I,M)} p_i \cdot \mathcal{E}_i(\mathcal{F}_i)\)
- 设计动机：开放世界的类无关二分类中，几何信息（点云）和语义信息（图像）的重要性随场景变化。路由器让模型自适应决定依赖哪种模态，避免跨模态噪声干扰
3D 物体发现的 2D→3D 投影：
- 功能：将 2D 框映射到 3D 空间
- 核心思路：通过相机内参 \(K\) 和外参 \(R_t\) 将 3D 点投影到 2D 空间，找到 2D 框内的点，然后聚类获得 3D 框
- 后处理：SAM 的 IoU 预测分数与类无关 2D 检测器的 objectness 分数相乘，用 0.6 阈值过滤低质量发现

损失函数 / 训练策略¶

分类损失采用类无关的二元分类损失（前景/背景）
其他损失沿用 OV-Uni3DETR 的设计
使用 ResNet50 + FPN 作为图像特征提取器，Sparse 3D ResNet 作为体素特征提取器
训练使用 AdamW 优化器
推理时不需要 SAM 或任何额外模块，直接在点云-图像对上运行

实验关键数据¶

主实验¶

跨类别泛化（SUN RGB-D & ScanNet）：

方法	数据集	AR_novel	AR_all	AR_base	AP_all
FCAF3D (closed)	SUN RGB-D	65.3	86.5	92.7	62.0
OV-Uni3DETR (open-vocab)	SUN RGB-D	62.8	82.5	88.8	57.4
OP3Det (ours)	SUN RGB-D	78.8	89.7	93.1	65.4
FCAF3D (closed)	ScanNet	61.7	71.3	83.2	24.7
OV-Uni3DETR (open-vocab)	ScanNet	67.6	71.6	76.5	25.9
OP3Det (ours)	ScanNet	79.9	83.2	87.3	28.6

OP3Det 在新类别上分别提升 13.5%（vs FCAF3D）和 16.0%（vs OV-Uni3DETR）。

跨数据集泛化：

设置	方法	AR25	AP25
ScanNet→SUN RGB-D	FCAF3D	59.3	17.9
ScanNet→SUN RGB-D	OP3Det	73.1	22.3
SUN RGB-D→ScanNet	FCAF3D	47.7	12.9
SUN RGB-D→ScanNet	OP3Det	77.9	21.2

跨数据集场景下提升高达 30% AR25。

消融实验¶

SAM	多尺度采样	CM-MoE	AR_novel	AR_all
✗	✗	✗	54.2	84.0
✓	✗	✗	50.0	74.1
✓	✓	✗	69.2	87.9
✓	✓	✓	78.8	89.7

单独加 SAM 反而下降（碎片掩码引入噪声）
多尺度采样使 AR_novel 从 50.0 → 69.2（+19.2%）
CM-MoE 进一步提升 AR_novel 到 78.8（+9.6%）

融合方式	AR_novel	AR_all
仅点云	69.2	87.9
特征相加	65.4	85.6
特征拼接	66.0	85.8
CM-MoE	78.8	89.7

简单融合反而不如单模态，CM-MoE 才能有效利用多模态互补信息。

关键发现¶

在类无关设置下，简单将多模态特征拼接/相加会导致 RGB 特征干扰 3D 几何线索
SAM 的碎片化输出需要精心设计的后处理才能有效用于 3D 场景
该方法可直接扩展到室外场景（KITTI）和类特定检测，具有良好的通用性

亮点与洞察¶

问题定义新颖：首次正式定义并解决"类无关开放世界 3D 物体检测"问题
2D→3D 迁移思路：巧妙利用 2D 基础模型的零样本能力弥补 3D 数据的不足
多尺度点采样：有效解决 SAM 碎片化输出问题，是 SAM 应用于 3D 场景的关键技术贡献
动态路由的 MoE：解决了开放世界下多模态融合的退化问题，是方法论层面的创新

局限与展望¶

SAM 的推理成本较高，训练前的物体发现阶段耗时
室外场景（如 KITTI）中前景稀疏、背景干扰大，提升幅度相对有限
类无关设置下 AP 指标无法按类别分别计算，评估粒度受限
未探索更大规模的 2D 基础模型（如 SAM 2）或更多模态（如深度估计）

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义类无关开放世界 3D 检测问题，框架设计有新意
实验充分度: ⭐⭐⭐⭐⭐ 跨类别+跨数据集+跨场景+消融，实验非常全面
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述完整
价值: ⭐⭐⭐⭐ 对开放世界 3D 感知有重要推动作用