Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation¶

会议: CVPR 2025
arXiv: 2502.02548
代码: https://nvlabs.github.io/Mosaic3D/
领域: 3d_vision
关键词: open-vocabulary 3D segmentation, foundation model, contrastive learning, data engine, mask decoder

一句话总结¶

提出自动化数据生成管线构建大规模3D mask-text数据集Mosaic3D-5.6M（5.6M对、30K场景），训练语言对齐3D编码器+mask decoder，实现首个单阶段开放词汇3D实例分割。

研究背景与动机¶

领域现状: 开放词汇3D场景理解是计算机视觉基础问题，对机器人、AR/VR、自动驾驶至关重要。2D VLM已通过web-scale数据实现强大开放词汇能力，但3D领域受制于标注成本，高质量训练数据严重匮乏。

现有方案的不足: 1. 区域边界不精确: RegionPLC等方法依赖粗糙的bounding box检测器，mask边界质量差（Entropy=81.0） 2. 文本描述不充分: OV3D仅生成简单属性标签（Unique Nouns仅2.5K），缺乏细粒度视觉描述 3. 数据规模不足: 现有数据集仅包含几千个场景，远不及2D数据的覆盖度 4. 实例分割依赖闭合词汇: 已有开放词汇3D实例分割方法依赖Mask3D等闭合词汇proposal网络，无法检测新类别

核心动机: 同时满足三个关键需求——精确3D区域分割、丰富文本描述、充足数据规模——以突破3D开放词汇理解的数据瓶颈。

方法详解¶

整体框架¶

系统分两大部分：（1）Mosaic3D-5.6M数据引擎：利用2D视觉基础模型从多视角RGB-D帧自动生成高质量3D mask-text对；（2）Mosaic3D模型训练：两阶段策略，先对比学习训练语言对齐3D编码器，再训练轻量mask decoder实现实例分割。

关键设计¶

模块一：增强分割+区域描述的数据引擎¶

数据生成管线包含三步： - 增强分割: 结合Grounded-SAM（前景物体精确边界）和SEEM（开放词汇全景分割，处理墙/地板等背景stuff），使用RAM++自动检测物体类别作为Grounding-DINO的文本提示 - 增强区域描述: 使用region-aware VLM（Osprey）为每个分割mask生成详细caption，描述视觉属性和空间上下文，而非粗略的类别标签 - 2D-3D关联: 通过相机参数将2D mask投影到3D点云，使用深度阈值进行inclusion test，得到3D mask-text对

该管线应用于ScanNet、ARKitScenes、ScanNet++、Matterport3D、Structured3D五个数据集，生成30K场景、5.6M mask-text对。

模块二：对比学习语言对齐3D编码器¶

使用SparseUNet34C作为3D backbone，通过point-level contrastive loss将每个3D点特征与对应caption text embedding对齐。文本编码器使用Recap-CLIP（支持长文本）。损失函数对每个3D区域mask进行加权，确保不同大小区域获得同等优化力度。采用Point Prompt Training (PPT)增强多数据集联合训练。

模块三：Caption Merging + Mask Decoder¶

Caption Merging: 将多视角mask-caption数据与Segment3D的class-agnostic 3D mask通过IoU匹配合并，每个Segment3D mask关联多个caption
Mask Decoder: 使用Mask3D（transformer架构）作为mask decoder，输入位置编码采样的queries和backbone的语言对齐特征，输出mask embeddings
关键创新: 首个单阶段开放词汇3D实例分割——不依赖闭合词汇proposal网络，不需要GT标签

损失函数¶

阶段一 - 语言对齐: $$\mathcal{L}_{point} = -\frac{1}{K}\sum_{k=1}^{K}\sum_{i=1}^{N}(s_k)_i \log\frac{\exp(z_i^{3D}\cdot z_k^{text}/\tau)}{\sum_{j=1}^{K}\exp(z_i^{3D}\cdot z_j^{text})}$$

阶段二 - Mask Decoder: $$\mathcal{L}_{mask} = \lambda_{obj}\mathcal{L}_{obj} + \lambda_{dice}\mathcal{L}_{dice} + \lambda_{bce}\mathcal{L}_{bce} + \lambda_{cap}\mathcal{L}_{cap}$$ 其中 $\mathcal{L}_{cap}$ 是mask embedding与caption embedding的对比损失，$\lambda_{obj}=2, \lambda_{dice}=5, \lambda_{bce}=2, \lambda_{cap}=1$。

实验关键数据¶

主实验表¶

开放词汇3D语义分割 (f-mIoU / f-mAcc):

方法	ScanNet20	ScanNet200	ScanNet++	Matterport3D
RegionPLC	59.6/77.5	9.1/17.3	-	-
OV3D	64.0/76.3	8.7/-	-	-
Mosaic3D (SN only)	65.0/82.5	13.0/24.5	16.2/27.1	8.6/17.8
Mosaic3D (full)	68.1/84.4	15.7/28.3	18.0/29.0	13.1/27.7

开放词汇3D实例分割 (mAP on ScanNet200): - 使用Mask3D proposals: Mosaic3D达到11.8 mAP，超越OpenIns3D (8.8) +3.0p - 使用Segment3D proposals: 2.7 mAP - Mosaic3D w/ Decoder（首个单阶段）: 3.9 mAP，延迟仅1.2s

消融表¶

数据引擎组件消融 (ScanNet only, f-mIoU/f-mAcc):

分割方案	描述方案	ScanNet20	ScanNet200
Detic + Kosmos-2	通用caption	52.3/73.2	7.4/14.2
RAM++ + G-SAM + Ferret	region-aware	59.6/79.2	9.0/17.8
RAM++ + G-SAM + SEEM + Osprey	最终选择	65.0/82.5	13.0/24.5

数据规模消融: 随着添加ARKitScenes、ScanNet++等数据集，ScanNet200 f-mIoU从约10.5持续增长到15.7，验证了scale的重要性。

关键发现¶

数据质量（精确mask + 丰富caption）和规模两者都是性能提升的关键因素
联合SEEM+Grounded-SAM分割 > 单独使用任一模型，互补前景物体和背景stuff
Region-aware VLM生成的caption远优于通用image captioning模型
单阶段mask decoder避免了多视角CLIP推断的高延迟（从47.3s降至1.2s）

亮点与洞察¶

数据引擎思路值得借鉴: 用2D基础模型自动标注3D数据的范式，可推广到其他3D任务（如3D grounding、navigation）
scale matters: 5.6M对 vs 数万对，量变引起质变，高质量caption per scene比scene数量更重要（超越用更多scene的SceneVerse）
首个单阶段开放词汇3D实例分割: 消除了对闭合词汇proposal网络的依赖，显著简化pipeline
实用效率: 3D-only推理单场景仅需1.2s，而2D+3D方法需33-285s

局限性¶

数据生成管线依赖于2D基础模型（SAM、Osprey等）的质量上限
单阶段mask decoder（3.9 mAP）与使用2D CLIP的方法（23.7 mAP）差距较大
仅覆盖室内场景数据集，未验证室外/大规模场景泛化性
Caption merging中IoU阈值为全局固定，可能不适应所有场景类型

评分¶

⭐⭐⭐⭐ — 工程系统性极强，数据引擎 + 模型设计完整，SOTA结果全面覆盖多个benchmark；单阶段实例分割是重要创新；但核心学术新颖度偏向工程整合。