JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas¶

会议: CVPR 2026
arXiv: 2603.06168
代码: 无
领域: 3D语义分割 / 开放词汇场景理解
关键词: 开放词汇3D分割, 点云-全景图联合分割, 切向分解, 视觉语言对齐, 免训练分割

一句话总结¶

提出JOPP-3D——首个联合处理点云和全景图的开放词汇语义分割框架，通过正二十面体切向分解将全景图转为透视图后利用SAM+CLIP提取实例级语义嵌入，再经深度对应实现3D→全景语义回投，在S3DIS上以80.9% mIoU超越所有监督/无监督方法（含PointTransformerV3的73.4%），全景分割70.1% mIoU大幅领先。

背景与动机¶

传统语义分割依赖大规模标注数据和固定类别集，在动态变化的开放环境中泛化能力差。现有方法要么只处理2D图像要么只处理3D点云，且受限于预定义类别。视觉语言模型（CLIP等）已展现开放词汇分割潜力，但主要针对透视图，直接应用于全景图因几何畸变效果差，应用于3D点云则需跨模态对齐。全景图提供360°完整覆盖而点云提供几何精度，但两者的联合开放词汇语义分割尚未被探索。

核心问题¶

如何实现跨3D点云和全景图的统一开放词汇语义分割，克服三大挑战: (1) 全景图的球面畸变使CLIP/SAM等基础模型无法直接处理; (2) 2D视觉语言特征到3D点云的跨模态对齐; (3) 3D语义向全景域的一致性回投（尤其在门廊/走廊等深度不连续区域）。

方法详解¶

整体框架¶

输入: 场景的多张全景RGB-D图像及相机位姿。(1) 切向分解: 将每张全景图投射到正二十面体的20个面，生成20张切向透视图(640×480, FOV=100°)及对应深度图，聚合所有视角的3D点并体素化得到全局点云; (2) 3D实例提取+语义对齐: 用Mask3D(弱监督)或SAM3D(无监督)生成3D实例提案，将每个3D实例投影到K个最佳切向视图，用SAM生成2D实例掩码裁剪，CLIP编码被掩码的裁剪图像，平均K个视图的特征向量得到实例语义嵌入; (3) 语言查询得3D语义分割，再通过深度对应回投到全景域。

关键设计¶

正二十面体切向分解: 将球面全景图投射到正二十面体的20个切面（FOV=100°，超越先前Eder等人的73.1°），相邻面有重叠区域避免边界不连续。用透视投影替代多面体投影，在几何稳定的FOV范围内实现更宽的上下文覆盖。较Cubemap(6面×90°)提供更多视角和更少边界伪影。
掩码裁剪的CLIP编码: 为每个3D实例选择投影点最多的K个切向视图，用SAM以投影点为提示生成2D掩码，将掩码应用于裁剪后再送CLIP编码（先掩码再编码），防止大面积类别（如地板、天花板）的语义污染。这一步是关键——不masking时性能从74.6%暴跌至33.6%（Open mIoU消融）。
深度对应3D→全景语义回投: 将全景深度图中每个像素反投影为3D点，找最近邻语义点赋标签。关键创新是跨场景深度对应：当两张相邻全景在门廊/走廊处有深度重叠时（深度差<δ_d），从已有语义标签的邻居全景传播标签到当前缺失区域，保证走廊/门口等区域的语义连续性。

损失函数 / 训练策略¶

JOPP-3D是免训练(training-free)方法，不涉及损失函数或训练。所有组件均为推理时Pipeline：冻结的Mask3D/SAM3D做3D实例提案，冻结的SAM做2D分割，冻结的CLIP做语义编码，自然语言查询做开放词汇分类。弱监督版使用S3DIS Area 1,2,3,4,6预训练的Mask3D，无监督版使用SAM3D。

实验关键数据¶

数据集	任务	指标	JOPP-3D	之前SOTA	提升
S3DIS Area-5	3D分割	mIoU	80.9%	Concerto 77.4%(监督)	+3.5
S3DIS Area-5	3D分割	mAcc	87.0%	Concerto 85.0%(监督)	+2.0
Stanford-2D-3D-s	全景分割	mIoU	70.1%	PanoSAMic 61.7%(监督)	+8.4
Stanford-2D-3D-s	全景分割	Open mIoU	74.6%	SAM3 62.8%(无监督)	+11.8
ToF-360	3D分割	mIoU	30.9%	SFSS-MMSI 23.2%(无监督)	+7.7
ToF-360	全景分割	mIoU	30.7%	HoHoNet 27.5%(无监督)	+3.2

vs OpenMask3D(同为开放词汇): 3D mIoU 80.9% vs 36.7%, 全景mIoU 70.1% vs 29.8%

消融实验要点¶

SAM掩码贡献最大: 去掉掩码裁剪(w/o SAM Mask)后Open mIoU从74.6%→33.6%——CLIP直接编码含多物体的裁剪图严重混淆地板/天花板/墙壁
切向分解关键: 去掉(w/o Tgt Decomp.)后41.4%，全景球面畸变显著劣化CLIP嵌入
深度对应有效: 去掉(w/o Depth Corr.)后67.0%→74.6%，尤其改善门口/走廊区域
Mask3D vs SAM3D: JOPP-3D(u)用SAM3D(无监督)为59.9%，用Mask3D(弱监督)为74.6%——高质量3D实例提案对最终性能影响显著
推理速度: 4.8分钟/全景图像(单RTX A6000)，单次查询1.7秒

亮点¶

首个联合处理3D点云和全景图的开放词汇分割框架，免训练即超越所有监督方法
正二十面体切向分解设计优雅: 100° FOV实现比Cubemap更好的上下文覆盖和更少边界伪影
掩码CLIP编码是消融证实的关键设计——简单但效果巨大(33.6→74.6)
深度对应跨场景语义传播巧妙解决全景分割中门廊/走廊区域的不完整问题
开放词汇方法能检索GT中被标为"clutter"的细粒度物体（时钟、海报、垃圾桶等），展现实际应用价值

局限性 / 可改进方向¶

依赖RGB-D全景图输入，纯RGB全景场景无法使用（需要深度信息做3D重建和回投）
Mask3D弱监督版需预训练数据（S3DIS Areas 1-4,6），跨域场景（如室外）泛化性待验证
推理速度偏慢(4.8 min/image)，实时应用困难
"clutter"等笼统标签在定量评估中惩罚了开放词汇方法的细粒度识别能力——需要更合理的评估标准
仅在室内场景验证，大规模室外场景（如自动驾驶）的适用性未探索

与相关工作的对比¶

vs OpenMask3D: 同为开放词汇3D分割，但OpenMask3D基于透视RGB-D序列做实例分割，本文基于全景+点云做场景级语义分割，且全面碾压(3D mIoU 80.9 vs 36.7)
vs OPS(Open Panoramic Segmentation): OPS需训练DAN适配器处理全景畸变，本文免训练的切向分解更优(全景mIoU 70.1 vs 41.1)，且OPS不做3D分割
vs SAM3: RGB-only方法，在全景分割上54.2% mIoU，本文通过引入深度信息和3D对齐达到70.1%

启发与关联¶

切向分解+基础模型是处理全景图的通用范式: 任何依赖透视图预训练的基础模型（检测、分割、生成）都可通过类似的正多面体投影适配到全景场景
3D作为2D一致性的"锚": 先在3D中形成全局一致的语义，再回投到2D，是保证多视角一致性的有效策略——可用于视频理解、多视角一致分割等任务
掩码裁剪+CLIP的实例级语义对齐范式: 通过SAM隔离实例后再CLIP编码的pipeline，可推广到任何需要开放词汇实例级特征的任务
Idea: 将JOPP-3D的切向分解+语义对齐思路应用于开放词汇全景目标检测或全景3D场景编辑

评分¶

新颖性: ⭐⭐⭐⭐ 首次提出点云+全景联合开放词汇分割，切向分解和深度对应设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 两数据集、2D+3D双任务评估、4项消融、丰富定性分析、计算效率分析
写作质量: ⭐⭐⭐⭐ 框架清晰，图表优质，方法描述系统化
价值: ⭐⭐⭐⭐⭐ 免训练超越监督方法，切向分解和掩码CLIP范式可广泛复用，开放词汇3D场景理解的重要进展
新颖性: ⭐⭐⭐
实验充分度: ⭐⭐⭐
写作质量: ⭐⭐⭐
对我的价值: ⭐⭐⭐