跳转至

Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding

会议: CVPR 2025
arXiv: 2504.19500
代码: https://mpec-3d.github.io
领域: 3D视觉
关键词: 开放词汇3D分割, 对比学习, 点云, 实体感知, 场景理解

一句话总结

提出 MPEC(Masked Point-Entity Contrastive learning),通过跨视角 point-to-entity 对比学习和 entity-to-language 对齐两个层次的对比损失来训练 3D 编码器,在保持实体级几何-空间信息的同时实现开放词汇语义理解,在 ScanNet 上取得 66.0% f-mIoU 的 SOTA 并在 8 个数据集的下游任务上展现强泛化能力。

研究背景与动机

开放词汇 3D 场景理解对具身智能至关重要——智能体需要理解任意文本描述的物体并与之交互。现有方法面临核心挑战:

  • 2D-3D 信息鸿沟:现有方法利用 2D VLM 的语义特征蒸馏或融合到 3D 表示中,但 2D 特征缺乏全局空间关系和多视角一致性
  • 语义 vs 几何的矛盾:纯语义对齐(如 OpenScene 用 2D-VL 特征蒸馏)的 3D 表示缺乏几何信息,导致对颜色相似但语义不同的物体难以区分
  • 实体概念缺失:已有的 3D 自监督方法(PointContrast, CSC, GroupContrast)的对比单元是邻域/区域/语义原型,没有明确的物体概念,难以与语言对齐
  • 大规模 3D-语言数据稀缺:没有足够的 3D-文本配对数据直接训练 3D-语言对齐

核心动机:利用 3D 实体 mask 建立既保持空间-几何信息又对齐语言的 3D 表示——通过实体级跨视角对比学习增强实例区分能力,通过实体-语言对比学习获得开放词汇理解能力。

方法详解

整体框架

MPEC 包含两个对比学习阶段:(1) Point-to-Entity 对齐——对同一场景的两个增强视角执行基于实体 mask 的跨视角对比学习,使同一实体在不同视角的点特征聚拢、不同实体的分开;(2) Entity-to-Language 对齐——将融合后的点特征通过 VL-Adapter 投影到 CLIP 文本嵌入空间,实现开放词汇理解。输入为 3D 点云 + 实体 mask proposal + 文本描述。

关键设计

  1. 跨视角 Point-to-Entity 对比学习:

    • 功能:将实体级 3D 空间信息编码进点特征,增强同实体点的一致性和不同实体间的区分度
    • 核心思路:对输入点云生成两个增强视角 \(\mathcal{P}_u, \mathcal{P}_v\),分别随机 mask 不重叠的网格区域并用可学习 token 替换被 mask 点的颜色,送入共享 3D UNet 提取逐点特征 \(\mathbf{F}_u, \mathbf{F}_v\)。利用实体 mask 计算每个点到另一视角各实体的平均余弦相似度 \(\mathbf{s}_{i,e_k}^{u \to v}\),对属于实体的点用 InfoNCE loss 驱使其与对应实体匹配,对背景点同样与对应背景点匹配。最终双向对称的对比损失为 \(\mathcal{L}_{p2e}\)
    • 设计动机:跨视角对比确保特征学到视角不变的实体表示(与自监督 point-level 对比不同,这里以实体为单元更符合语言描述的粒度);随机 mask 增加了重建难度,防止走捷径
  2. Entity-to-Language 对比对齐:

    • 功能:将学到的 3D 点特征映射到 CLIP 文本嵌入空间,实现开放词汇零样本分割
    • 核心思路:将两个视角的点特征取均值融合为 \(\mathbf{F}_{\mathcal{P}}\),通过两层 MLP(VL-Adapter)投影到 CLIP 维度 \(\mathbf{F}_{VL}\)。对文本描述(包括 caption 和 referral)用冻结 CLIP 文本编码器提取 \(\mathbf{F}_T\)。文本-to-实体方向用 cross-entropy loss 对齐每条文本与对应实体;实体-to-文本方向用 binary cross-entropy loss(因一个实体可能对应多条描述)。最终双向损失为 \(\mathcal{L}_{e2l} = \alpha \cdot \ell^{t \to e} + \beta \cdot \ell^{e \to t}\)
    • 设计动机:直接对称的 cross-entropy 不适用(多对多关系),BCEloss 允许一个实体正确匹配多条文本;两层 MLP 的轻量设计保留 3D 编码器学到的几何信息
  3. 训练数据与实体 mask 来源:

    • 功能:提供训练管线所需的实体 mask 和文本描述
    • 核心思路:使用 off-the-shelf 3D 实例分割模型生成实体 mask proposal;利用 SceneVerse 的数据管线,基于场景图和 2D foundation model 为实体生成描述性/引用性文本;训练数据来自 ScanNet + 3RScan + HM3D + MultiScan(SceneVerse 聚合)
    • 设计动机:直接利用现有 3D 分割模型和 VL 数据生成管线,避免昂贵的人工标注

损失函数

  • 总损失:\(\mathcal{L}_{overall} = \mathcal{L}_{p2e} + \mathcal{L}_{e2l}\)
  • \(\mathcal{L}_{p2e}\):基于温度参数 \(\tau\) 的对称 InfoNCE 损失
  • \(\mathcal{L}_{e2l}\):文本→实体 cross-entropy + 实体→文本 binary cross-entropy,加权参数 \(\alpha, \beta\) 平衡量级

实验关键数据

主实验(ScanNet 开放词汇 3D 语义分割)

方法 网络 f-mIoU↑ f-mAcc↑
OpenScene-3D SPUNet32 57.8 70.3
RegionPLC SPUNet32 59.6 77.5
OV3D SPUNet16 64.0 76.3
MPEC SPUNet16 64.6 79.5
MPEC SPUNet32 66.0 81.3

零样本迁移

方法 SceneVerse-val f-mIoU Matterport3D f-mIoU Matterport3D f-mAcc
OpenScene 41.3 49.7* 64.0*
RegionPLC 39.1 28.9 43.8
MPEC 45.0 47.7 69.8

*OpenScene 在 Matterport3D 上进行了域内训练

细粒度/长尾场景(ScanNet200)

方法 f-mIoU f-mAcc
RegionPLC 9.1 17.3
OV3D 8.7 -
MPEC 10.8 27.4

数据高效实验(ScanNet Data Efficient,1% 场景)

方法 mIoU
GroupContrast 30.7
MPEC 40.8

关键发现

  • MPEC 在 ScanNet 上以 66.0% f-mIoU 和 81.3% f-mAcc 大幅超越此前 SOTA(OV3D 的 64.0%/76.3%)
  • 零样本迁移到未见过的 Matterport3D:虽然未在域内训练,f-mAcc (69.8%) 超过域内训练的 OpenScene (64.0%) 和 OV3D (65.7%)
  • ScanNet200 长尾场景下 f-mAcc 提升约 10%(vs RegionPLC),表明实体级对比学习有效提升细粒度区分
  • 1% 数据高效场景下从 30.7% 跃升至 40.8% mIoU,证明学到的表示泛化性极强
  • 作为 PQ3D 的 3D 编码器替换,在视觉定位、问答、描述等多个高层任务上均有提升

亮点与洞察

  • 实体级对比的优雅设计:将点云 self-supervised 对比学习从"点/邻域/原型"粒度提升到"实体"粒度——这与语言描述的自然粒度一致,是后续对齐的关键桥梁
  • 跨视角 mask + 对比学习的协同:mask 增加难度迫使编码器学习更鲁棒的表示,实体 mask 提供语义监督——两种 mask 机制巧妙叠加
  • 3D 信息的关键性:OpenScene 等纯 2D 蒸馏方案在视觉歧义(同色不同物)场景下失败,MPEC 的实体对比天然编码空间位置,解决了这一问题
  • 通用 3D 编码器潜力:在 8 个数据集 7 类任务上展示一致提升,有望成为 3D-LLM 的基础 backbone

局限与展望

  • 实体 mask 依赖现有 3D 实例分割模型(如 Mask3D),mask 质量直接影响对比学习效果
  • CLIP 文本编码器冻结且不擅长处理长/复杂的空间描述,限制了精细视觉定位能力
  • 训练数据主要来自室内场景(ScanNet 系列),对户外/大规模场景的泛化有待验证
  • 文本描述由 foundation model 自动生成,可能引入噪声
  • BackBone 仅验证了 SPUNet,对 Transformer 架构的适配未探索

相关工作与启发

  • 与 OpenScene 的本质区别:OpenScene 将 2D VLM 特征蒸馏到 3D,特征缺乏 3D 几何信息;MPEC 在 3D 空间中直接学习保持几何的实体表示后再对齐语言
  • 与 GroupContrast 的区别:GroupContrast 用语义原型做对比,无明确物体概念,不适合语言对齐;MPEC 的实体级对比自然桥接了 3D 和语言
  • 启发:3D 场景理解的关键不只是语义对齐,还要保持空间-几何信息——实体级对比学习是一个优雅的解决方案

评分

  • 新颖性: ⭐⭐⭐⭐ 实体级跨视角对比 + 语言对齐的组合设计有显著创新,但各组件独立看均有先例
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 个数据集、零样本/微调/数据高效/高层推理多场景覆盖,消融详尽
  • 写作质量: ⭐⭐⭐⭐ 公式推导严谨,pipeline 图清晰,但论文整体较密集
  • 价值: ⭐⭐⭐⭐⭐ 为 3D 场景理解提供了新的预训练范式,作为通用 3D 编码器的潜力巨大

相关论文