跳转至

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

会议: CVPR 2026
arXiv: 2603.06168
代码: 无
领域: 3D语义分割 / 开放词汇场景理解
关键词: 开放词汇3D分割, 点云-全景图联合分割, 切向分解, 视觉语言对齐, 免训练分割

一句话总结

提出JOPP-3D——首个联合处理点云和全景图的开放词汇语义分割框架,通过正二十面体切向分解将全景图转为透视图后利用SAM+CLIP提取实例级语义嵌入,再经深度对应实现3D→全景语义回投,在S3DIS上以80.9% mIoU超越所有监督/无监督方法(含PointTransformerV3的73.4%),全景分割70.1% mIoU大幅领先。

背景与动机

传统语义分割依赖大规模标注数据和固定类别集,在动态变化的开放环境中泛化能力差。现有方法要么只处理2D图像要么只处理3D点云,且受限于预定义类别。视觉语言模型(CLIP等)已展现开放词汇分割潜力,但主要针对透视图,直接应用于全景图因几何畸变效果差,应用于3D点云则需跨模态对齐。全景图提供360°完整覆盖而点云提供几何精度,但两者的联合开放词汇语义分割尚未被探索。

核心问题

如何实现跨3D点云和全景图的统一开放词汇语义分割,克服三大挑战: (1) 全景图的球面畸变使CLIP/SAM等基础模型无法直接处理; (2) 2D视觉语言特征到3D点云的跨模态对齐; (3) 3D语义向全景域的一致性回投(尤其在门廊/走廊等深度不连续区域)。

方法详解

整体框架

输入: 场景的多张全景RGB-D图像及相机位姿。(1) 切向分解: 将每张全景图投射到正二十面体的20个面,生成20张切向透视图(640×480, FOV=100°)及对应深度图,聚合所有视角的3D点并体素化得到全局点云; (2) 3D实例提取+语义对齐: 用Mask3D(弱监督)或SAM3D(无监督)生成3D实例提案,将每个3D实例投影到K个最佳切向视图,用SAM生成2D实例掩码裁剪,CLIP编码被掩码的裁剪图像,平均K个视图的特征向量得到实例语义嵌入; (3) 语言查询得3D语义分割,再通过深度对应回投到全景域。

关键设计

  1. 正二十面体切向分解: 将球面全景图投射到正二十面体的20个切面(FOV=100°,超越先前Eder等人的73.1°),相邻面有重叠区域避免边界不连续。用透视投影替代多面体投影,在几何稳定的FOV范围内实现更宽的上下文覆盖。较Cubemap(6面×90°)提供更多视角和更少边界伪影。
  2. 掩码裁剪的CLIP编码: 为每个3D实例选择投影点最多的K个切向视图,用SAM以投影点为提示生成2D掩码,将掩码应用于裁剪后送CLIP编码(先掩码再编码),防止大面积类别(如地板、天花板)的语义污染。这一步是关键——不masking时性能从74.6%暴跌至33.6%(Open mIoU消融)。
  3. 深度对应3D→全景语义回投: 将全景深度图中每个像素反投影为3D点,找最近邻语义点赋标签。关键创新是跨场景深度对应:当两张相邻全景在门廊/走廊处有深度重叠时(深度差<δ_d),从已有语义标签的邻居全景传播标签到当前缺失区域,保证走廊/门口等区域的语义连续性。

损失函数 / 训练策略

JOPP-3D是免训练(training-free)方法,不涉及损失函数或训练。所有组件均为推理时Pipeline:冻结的Mask3D/SAM3D做3D实例提案,冻结的SAM做2D分割,冻结的CLIP做语义编码,自然语言查询做开放词汇分类。弱监督版使用S3DIS Area 1,2,3,4,6预训练的Mask3D,无监督版使用SAM3D。

实验关键数据

数据集 任务 指标 JOPP-3D 之前SOTA 提升
S3DIS Area-5 3D分割 mIoU 80.9% Concerto 77.4%(监督) +3.5
S3DIS Area-5 3D分割 mAcc 87.0% Concerto 85.0%(监督) +2.0
Stanford-2D-3D-s 全景分割 mIoU 70.1% PanoSAMic 61.7%(监督) +8.4
Stanford-2D-3D-s 全景分割 Open mIoU 74.6% SAM3 62.8%(无监督) +11.8
ToF-360 3D分割 mIoU 30.9% SFSS-MMSI 23.2%(无监督) +7.7
ToF-360 全景分割 mIoU 30.7% HoHoNet 27.5%(无监督) +3.2

vs OpenMask3D(同为开放词汇): 3D mIoU 80.9% vs 36.7%, 全景mIoU 70.1% vs 29.8%

消融实验要点

  • SAM掩码贡献最大: 去掉掩码裁剪(w/o SAM Mask)后Open mIoU从74.6%→33.6%——CLIP直接编码含多物体的裁剪图严重混淆地板/天花板/墙壁
  • 切向分解关键: 去掉(w/o Tgt Decomp.)后41.4%,全景球面畸变显著劣化CLIP嵌入
  • 深度对应有效: 去掉(w/o Depth Corr.)后67.0%→74.6%,尤其改善门口/走廊区域
  • Mask3D vs SAM3D: JOPP-3D(u)用SAM3D(无监督)为59.9%,用Mask3D(弱监督)为74.6%——高质量3D实例提案对最终性能影响显著
  • 推理速度: 4.8分钟/全景图像(单RTX A6000),单次查询1.7秒

亮点

  • 首个联合处理3D点云和全景图的开放词汇分割框架,免训练即超越所有监督方法
  • 正二十面体切向分解设计优雅: 100° FOV实现比Cubemap更好的上下文覆盖和更少边界伪影
  • 掩码CLIP编码是消融证实的关键设计——简单但效果巨大(33.6→74.6)
  • 深度对应跨场景语义传播巧妙解决全景分割中门廊/走廊区域的不完整问题
  • 开放词汇方法能检索GT中被标为"clutter"的细粒度物体(时钟、海报、垃圾桶等),展现实际应用价值

局限性 / 可改进方向

  • 依赖RGB-D全景图输入,纯RGB全景场景无法使用(需要深度信息做3D重建和回投)
  • Mask3D弱监督版需预训练数据(S3DIS Areas 1-4,6),跨域场景(如室外)泛化性待验证
  • 推理速度偏慢(4.8 min/image),实时应用困难
  • "clutter"等笼统标签在定量评估中惩罚了开放词汇方法的细粒度识别能力——需要更合理的评估标准
  • 仅在室内场景验证,大规模室外场景(如自动驾驶)的适用性未探索

与相关工作的对比

  • vs OpenMask3D: 同为开放词汇3D分割,但OpenMask3D基于透视RGB-D序列做实例分割,本文基于全景+点云做场景级语义分割,且全面碾压(3D mIoU 80.9 vs 36.7)
  • vs OPS(Open Panoramic Segmentation): OPS需训练DAN适配器处理全景畸变,本文免训练的切向分解更优(全景mIoU 70.1 vs 41.1),且OPS不做3D分割
  • vs SAM3: RGB-only方法,在全景分割上54.2% mIoU,本文通过引入深度信息和3D对齐达到70.1%

启发与关联

  • 切向分解+基础模型是处理全景图的通用范式: 任何依赖透视图预训练的基础模型(检测、分割、生成)都可通过类似的正多面体投影适配到全景场景
  • 3D作为2D一致性的"锚": 先在3D中形成全局一致的语义,再回投到2D,是保证多视角一致性的有效策略——可用于视频理解、多视角一致分割等任务
  • 掩码裁剪+CLIP的实例级语义对齐范式: 通过SAM隔离实例后再CLIP编码的pipeline,可推广到任何需要开放词汇实例级特征的任务
  • Idea: 将JOPP-3D的切向分解+语义对齐思路应用于开放词汇全景目标检测或全景3D场景编辑

评分

  • 新颖性: ⭐⭐⭐⭐ 首次提出点云+全景联合开放词汇分割,切向分解和深度对应设计新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 两数据集、2D+3D双任务评估、4项消融、丰富定性分析、计算效率分析
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,图表优质,方法描述系统化
  • 价值: ⭐⭐⭐⭐⭐ 免训练超越监督方法,切向分解和掩码CLIP范式可广泛复用,开放词汇3D场景理解的重要进展
  • 新颖性: ⭐⭐⭐
  • 实验充分度: ⭐⭐⭐
  • 写作质量: ⭐⭐⭐
  • 对我的价值: ⭐⭐⭐