跳转至

Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation

会议: CVPR 2025
arXiv: 2502.02548
代码: https://nvlabs.github.io/Mosaic3D/
领域: 3d_vision
关键词: open-vocabulary 3D segmentation, foundation model, contrastive learning, data engine, mask decoder

一句话总结

提出自动化数据生成管线构建大规模3D mask-text数据集Mosaic3D-5.6M(5.6M对、30K场景),训练语言对齐3D编码器+mask decoder,实现首个单阶段开放词汇3D实例分割。

研究背景与动机

领域现状: 开放词汇3D场景理解是计算机视觉基础问题,对机器人、AR/VR、自动驾驶至关重要。2D VLM已通过web-scale数据实现强大开放词汇能力,但3D领域受制于标注成本,高质量训练数据严重匮乏。

现有方案的不足: 1. 区域边界不精确: RegionPLC等方法依赖粗糙的bounding box检测器,mask边界质量差(Entropy=81.0) 2. 文本描述不充分: OV3D仅生成简单属性标签(Unique Nouns仅2.5K),缺乏细粒度视觉描述 3. 数据规模不足: 现有数据集仅包含几千个场景,远不及2D数据的覆盖度 4. 实例分割依赖闭合词汇: 已有开放词汇3D实例分割方法依赖Mask3D等闭合词汇proposal网络,无法检测新类别

核心动机: 同时满足三个关键需求——精确3D区域分割、丰富文本描述、充足数据规模——以突破3D开放词汇理解的数据瓶颈。

方法详解

整体框架

系统分两大部分:(1)Mosaic3D-5.6M数据引擎:利用2D视觉基础模型从多视角RGB-D帧自动生成高质量3D mask-text对;(2)Mosaic3D模型训练:两阶段策略,先对比学习训练语言对齐3D编码器,再训练轻量mask decoder实现实例分割。

关键设计

模块一:增强分割+区域描述的数据引擎

数据生成管线包含三步: - 增强分割: 结合Grounded-SAM(前景物体精确边界)和SEEM(开放词汇全景分割,处理墙/地板等背景stuff),使用RAM++自动检测物体类别作为Grounding-DINO的文本提示 - 增强区域描述: 使用region-aware VLM(Osprey)为每个分割mask生成详细caption,描述视觉属性和空间上下文,而非粗略的类别标签 - 2D-3D关联: 通过相机参数将2D mask投影到3D点云,使用深度阈值进行inclusion test,得到3D mask-text对

该管线应用于ScanNet、ARKitScenes、ScanNet++、Matterport3D、Structured3D五个数据集,生成30K场景、5.6M mask-text对。

模块二:对比学习语言对齐3D编码器

使用SparseUNet34C作为3D backbone,通过point-level contrastive loss将每个3D点特征与对应caption text embedding对齐。文本编码器使用Recap-CLIP(支持长文本)。损失函数对每个3D区域mask进行加权,确保不同大小区域获得同等优化力度。采用Point Prompt Training (PPT)增强多数据集联合训练。

模块三:Caption Merging + Mask Decoder

  • Caption Merging: 将多视角mask-caption数据与Segment3D的class-agnostic 3D mask通过IoU匹配合并,每个Segment3D mask关联多个caption
  • Mask Decoder: 使用Mask3D(transformer架构)作为mask decoder,输入位置编码采样的queries和backbone的语言对齐特征,输出mask embeddings
  • 关键创新: 首个单阶段开放词汇3D实例分割——不依赖闭合词汇proposal网络,不需要GT标签

损失函数

阶段一 - 语言对齐: $\(\mathcal{L}_{point} = -\frac{1}{K}\sum_{k=1}^{K}\sum_{i=1}^{N}(s_k)_i \log\frac{\exp(z_i^{3D}\cdot z_k^{text}/\tau)}{\sum_{j=1}^{K}\exp(z_i^{3D}\cdot z_j^{text})}\)$

阶段二 - Mask Decoder: $\(\mathcal{L}_{mask} = \lambda_{obj}\mathcal{L}_{obj} + \lambda_{dice}\mathcal{L}_{dice} + \lambda_{bce}\mathcal{L}_{bce} + \lambda_{cap}\mathcal{L}_{cap}\)$ 其中 \(\mathcal{L}_{cap}\) 是mask embedding与caption embedding的对比损失,\(\lambda_{obj}=2, \lambda_{dice}=5, \lambda_{bce}=2, \lambda_{cap}=1\)

实验关键数据

主实验表

开放词汇3D语义分割 (f-mIoU / f-mAcc):

方法 ScanNet20 ScanNet200 ScanNet++ Matterport3D
RegionPLC 59.6/77.5 9.1/17.3 - -
OV3D 64.0/76.3 8.7/- - -
Mosaic3D (SN only) 65.0/82.5 13.0/24.5 16.2/27.1 8.6/17.8
Mosaic3D (full) 68.1/84.4 15.7/28.3 18.0/29.0 13.1/27.7

开放词汇3D实例分割 (mAP on ScanNet200): - 使用Mask3D proposals: Mosaic3D达到11.8 mAP,超越OpenIns3D (8.8) +3.0p - 使用Segment3D proposals: 2.7 mAP - Mosaic3D w/ Decoder(首个单阶段): 3.9 mAP,延迟仅1.2s

消融表

数据引擎组件消融 (ScanNet only, f-mIoU/f-mAcc):

分割方案 描述方案 ScanNet20 ScanNet200
Detic + Kosmos-2 通用caption 52.3/73.2 7.4/14.2
RAM++ + G-SAM + Ferret region-aware 59.6/79.2 9.0/17.8
RAM++ + G-SAM + SEEM + Osprey 最终选择 65.0/82.5 13.0/24.5

数据规模消融: 随着添加ARKitScenes、ScanNet++等数据集,ScanNet200 f-mIoU从约10.5持续增长到15.7,验证了scale的重要性。

关键发现

  1. 数据质量(精确mask + 丰富caption)和规模两者都是性能提升的关键因素
  2. 联合SEEM+Grounded-SAM分割 > 单独使用任一模型,互补前景物体和背景stuff
  3. Region-aware VLM生成的caption远优于通用image captioning模型
  4. 单阶段mask decoder避免了多视角CLIP推断的高延迟(从47.3s降至1.2s)

亮点与洞察

  1. 数据引擎思路值得借鉴: 用2D基础模型自动标注3D数据的范式,可推广到其他3D任务(如3D grounding、navigation)
  2. scale matters: 5.6M对 vs 数万对,量变引起质变,高质量caption per scene比scene数量更重要(超越用更多scene的SceneVerse)
  3. 首个单阶段开放词汇3D实例分割: 消除了对闭合词汇proposal网络的依赖,显著简化pipeline
  4. 实用效率: 3D-only推理单场景仅需1.2s,而2D+3D方法需33-285s

局限性

  1. 数据生成管线依赖于2D基础模型(SAM、Osprey等)的质量上限
  2. 单阶段mask decoder(3.9 mAP)与使用2D CLIP的方法(23.7 mAP)差距较大
  3. 仅覆盖室内场景数据集,未验证室外/大规模场景泛化性
  4. Caption merging中IoU阈值为全局固定,可能不适应所有场景类型

相关工作与启发

  • OpenScene: 首个零样本3D语义分割(蒸馏CLIP到3D),Mosaic3D改用contrastive+大规模数据显著超越
  • RegionPLC / OV3D: 先前自动标注工作,但分割精度和caption丰富度不足
  • Segment3D: class-agnostic 3D mask提取,被Mosaic3D用于实例分割训练
  • 启发: 未来工作可考虑将数据引擎扩展到室外场景(如ScanNet式 → UrbanScene3D),以及探索video-based 3D annotation(利用视频连贯性进一步提升mask质量)

评分

⭐⭐⭐⭐ — 工程系统性极强,数据引擎 + 模型设计完整,SOTA结果全面覆盖多个benchmark;单阶段实例分割是重要创新;但核心学术新颖度偏向工程整合。

相关论文