Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation¶
会议: CVPR 2025
arXiv: 2502.02548
代码: https://nvlabs.github.io/Mosaic3D/
领域: 3d_vision
关键词: open-vocabulary 3D segmentation, foundation model, contrastive learning, data engine, mask decoder
一句话总结¶
提出自动化数据生成管线构建大规模3D mask-text数据集Mosaic3D-5.6M(5.6M对、30K场景),训练语言对齐3D编码器+mask decoder,实现首个单阶段开放词汇3D实例分割。
研究背景与动机¶
领域现状: 开放词汇3D场景理解是计算机视觉基础问题,对机器人、AR/VR、自动驾驶至关重要。2D VLM已通过web-scale数据实现强大开放词汇能力,但3D领域受制于标注成本,高质量训练数据严重匮乏。
现有方案的不足: 1. 区域边界不精确: RegionPLC等方法依赖粗糙的bounding box检测器,mask边界质量差(Entropy=81.0) 2. 文本描述不充分: OV3D仅生成简单属性标签(Unique Nouns仅2.5K),缺乏细粒度视觉描述 3. 数据规模不足: 现有数据集仅包含几千个场景,远不及2D数据的覆盖度 4. 实例分割依赖闭合词汇: 已有开放词汇3D实例分割方法依赖Mask3D等闭合词汇proposal网络,无法检测新类别
核心动机: 同时满足三个关键需求——精确3D区域分割、丰富文本描述、充足数据规模——以突破3D开放词汇理解的数据瓶颈。
方法详解¶
整体框架¶
系统分两大部分:(1)Mosaic3D-5.6M数据引擎:利用2D视觉基础模型从多视角RGB-D帧自动生成高质量3D mask-text对;(2)Mosaic3D模型训练:两阶段策略,先对比学习训练语言对齐3D编码器,再训练轻量mask decoder实现实例分割。
关键设计¶
模块一:增强分割+区域描述的数据引擎¶
数据生成管线包含三步: - 增强分割: 结合Grounded-SAM(前景物体精确边界)和SEEM(开放词汇全景分割,处理墙/地板等背景stuff),使用RAM++自动检测物体类别作为Grounding-DINO的文本提示 - 增强区域描述: 使用region-aware VLM(Osprey)为每个分割mask生成详细caption,描述视觉属性和空间上下文,而非粗略的类别标签 - 2D-3D关联: 通过相机参数将2D mask投影到3D点云,使用深度阈值进行inclusion test,得到3D mask-text对
该管线应用于ScanNet、ARKitScenes、ScanNet++、Matterport3D、Structured3D五个数据集,生成30K场景、5.6M mask-text对。
模块二:对比学习语言对齐3D编码器¶
使用SparseUNet34C作为3D backbone,通过point-level contrastive loss将每个3D点特征与对应caption text embedding对齐。文本编码器使用Recap-CLIP(支持长文本)。损失函数对每个3D区域mask进行加权,确保不同大小区域获得同等优化力度。采用Point Prompt Training (PPT)增强多数据集联合训练。
模块三:Caption Merging + Mask Decoder¶
- Caption Merging: 将多视角mask-caption数据与Segment3D的class-agnostic 3D mask通过IoU匹配合并,每个Segment3D mask关联多个caption
- Mask Decoder: 使用Mask3D(transformer架构)作为mask decoder,输入位置编码采样的queries和backbone的语言对齐特征,输出mask embeddings
- 关键创新: 首个单阶段开放词汇3D实例分割——不依赖闭合词汇proposal网络,不需要GT标签
损失函数¶
阶段一 - 语言对齐: $\(\mathcal{L}_{point} = -\frac{1}{K}\sum_{k=1}^{K}\sum_{i=1}^{N}(s_k)_i \log\frac{\exp(z_i^{3D}\cdot z_k^{text}/\tau)}{\sum_{j=1}^{K}\exp(z_i^{3D}\cdot z_j^{text})}\)$
阶段二 - Mask Decoder: $\(\mathcal{L}_{mask} = \lambda_{obj}\mathcal{L}_{obj} + \lambda_{dice}\mathcal{L}_{dice} + \lambda_{bce}\mathcal{L}_{bce} + \lambda_{cap}\mathcal{L}_{cap}\)$ 其中 \(\mathcal{L}_{cap}\) 是mask embedding与caption embedding的对比损失,\(\lambda_{obj}=2, \lambda_{dice}=5, \lambda_{bce}=2, \lambda_{cap}=1\)。
实验关键数据¶
主实验表¶
开放词汇3D语义分割 (f-mIoU / f-mAcc):
| 方法 | ScanNet20 | ScanNet200 | ScanNet++ | Matterport3D |
|---|---|---|---|---|
| RegionPLC | 59.6/77.5 | 9.1/17.3 | - | - |
| OV3D | 64.0/76.3 | 8.7/- | - | - |
| Mosaic3D (SN only) | 65.0/82.5 | 13.0/24.5 | 16.2/27.1 | 8.6/17.8 |
| Mosaic3D (full) | 68.1/84.4 | 15.7/28.3 | 18.0/29.0 | 13.1/27.7 |
开放词汇3D实例分割 (mAP on ScanNet200): - 使用Mask3D proposals: Mosaic3D达到11.8 mAP,超越OpenIns3D (8.8) +3.0p - 使用Segment3D proposals: 2.7 mAP - Mosaic3D w/ Decoder(首个单阶段): 3.9 mAP,延迟仅1.2s
消融表¶
数据引擎组件消融 (ScanNet only, f-mIoU/f-mAcc):
| 分割方案 | 描述方案 | ScanNet20 | ScanNet200 |
|---|---|---|---|
| Detic + Kosmos-2 | 通用caption | 52.3/73.2 | 7.4/14.2 |
| RAM++ + G-SAM + Ferret | region-aware | 59.6/79.2 | 9.0/17.8 |
| RAM++ + G-SAM + SEEM + Osprey | 最终选择 | 65.0/82.5 | 13.0/24.5 |
数据规模消融: 随着添加ARKitScenes、ScanNet++等数据集,ScanNet200 f-mIoU从约10.5持续增长到15.7,验证了scale的重要性。
关键发现¶
- 数据质量(精确mask + 丰富caption)和规模两者都是性能提升的关键因素
- 联合SEEM+Grounded-SAM分割 > 单独使用任一模型,互补前景物体和背景stuff
- Region-aware VLM生成的caption远优于通用image captioning模型
- 单阶段mask decoder避免了多视角CLIP推断的高延迟(从47.3s降至1.2s)
亮点与洞察¶
- 数据引擎思路值得借鉴: 用2D基础模型自动标注3D数据的范式,可推广到其他3D任务(如3D grounding、navigation)
- scale matters: 5.6M对 vs 数万对,量变引起质变,高质量caption per scene比scene数量更重要(超越用更多scene的SceneVerse)
- 首个单阶段开放词汇3D实例分割: 消除了对闭合词汇proposal网络的依赖,显著简化pipeline
- 实用效率: 3D-only推理单场景仅需1.2s,而2D+3D方法需33-285s
局限性¶
- 数据生成管线依赖于2D基础模型(SAM、Osprey等)的质量上限
- 单阶段mask decoder(3.9 mAP)与使用2D CLIP的方法(23.7 mAP)差距较大
- 仅覆盖室内场景数据集,未验证室外/大规模场景泛化性
- Caption merging中IoU阈值为全局固定,可能不适应所有场景类型
相关工作与启发¶
- OpenScene: 首个零样本3D语义分割(蒸馏CLIP到3D),Mosaic3D改用contrastive+大规模数据显著超越
- RegionPLC / OV3D: 先前自动标注工作,但分割精度和caption丰富度不足
- Segment3D: class-agnostic 3D mask提取,被Mosaic3D用于实例分割训练
- 启发: 未来工作可考虑将数据引擎扩展到室外场景(如ScanNet式 → UrbanScene3D),以及探索video-based 3D annotation(利用视频连贯性进一步提升mask质量)
评分¶
⭐⭐⭐⭐ — 工程系统性极强,数据引擎 + 模型设计完整,SOTA结果全面覆盖多个benchmark;单阶段实例分割是重要创新;但核心学术新颖度偏向工程整合。
相关论文¶
- [CVPR 2025] JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas
- [CVPR 2025] Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding
- [CVPR 2025] 3D Dental Model Segmentation with Geometrical Boundary Preserving
- [CVPR 2025] Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions
- [CVPR 2025] Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces