COS3D: Collaborative Open-Vocabulary 3D Segmentation¶
会议: NeurIPS 2025
arXiv: 2510.20238
代码: 无
领域: 3D分割 / 开放词汇
关键词: 开放词汇3D分割, 3D Gaussian Splatting, 协作场, Instance-Language协作, Kernel Regression
一句话总结¶
提出COS3D协作式开放词汇3D分割框架,在3D Gaussian Splatting中同时维护instance field(学习清晰边界)和language field(学习语义),通过两阶段训练实现Ins2Lang映射,推理时Language→Instance prompt精化实现互补协作,在LeRF数据集上mIoU达50.76%,大幅超越Dr.Splat(43.58%)。
研究背景与动机¶
- 领域现状:开放词汇3D分割旨在用文本查询分割3D场景中的任意目标。基于NeRF/3DGS的方法将CLIP/DINO特征蒸馏到3D表示中,通过文本-视觉相似度定位目标。
- 现有痛点:(a)纯language field方法(LangSplat等)边界模糊——语义特征在物体边界处过度平滑;(b)class-agnostic分割+后选方法(OpenGaussian等)误差累积——分割错误不可纠正。两类方法各有优势但未结合。
- 核心idea:让instance field和language field在训练和推理中协作——训练时Instance→Language映射,推理时Language→Instance精化。
方法详解¶
整体框架¶
基于3D Gaussian Splatting,每个Gaussian额外存储instance feature (16维) + language feature (512维)。两阶段训练:Stage 1用SAM mask做对比学习训练instance field;Stage 2从instance field映射到language field。推理时language field生成相关性图,instance field精化边界。
关键设计¶
- Stage 1 - Instance Field Learning:用SAM mask做InfoNCE对比学习,同一mask内的Gaussian特征拉近,不同的推远。学习到边界清晰的实例特征,仅需16维。
- Stage 2 - Ins2Lang Mapping:两种实现——(a) Shallow MLPs映射(~3min训练);(b) Kernel Regression(Nadaraya-Watson估计,无需训练)。从30-40min联合训练压缩到<3min。
- 推理 - Lang2Ins Prompt Refinement:先用language field生成3D文本相关性图→以高相关区域为prompt在instance field中做余弦相似度扩展→自适应过滤低相关区域。
实验关键数据¶
主实验(LeRF Dataset)¶
| 方法 | mIoU | mAcc |
|---|---|---|
| LangSplat | 9.66 | 12.41 |
| Dr.Splat | 43.58 | 63.87 |
| OpenGaussian | 38.36 | 51.43 |
| InstanceGaussian | 45.30 | 58.44 |
| COS3D (kernel) | 50.76 | 72.08 |
ScanNetv2 (19类)¶
| 方法 | mIoU | mAcc |
|---|---|---|
| OpenGaussian | 24.73 | 41.54 |
| COS3D (kernel) | 32.47 | 49.05 |
关键发现¶
- Kernel regression比MLP映射略优(50.76 vs 49.75 mIoU),且无需训练。
- 总训练时间仅50min,比联合训练(165min)快3.3×。
- Language→Instance精化是关键:去掉后mIoU大幅下降。
亮点与洞察¶
- Instance和Language的互补协作:训练时Instance教Language(映射),推理时Language教Instance(提供语义prompt)——优雅的双向协作。
- Kernel Regression的零训练映射:不需要训练就能从instance特征预测language特征,高效且有效。
局限性 / 可改进方向¶
- 16维instance feature可能限制了复杂场景的表达能力。
- 依赖SAM的mask质量,SAM失败的场景会影响instance field。
评分¶
- 新颖性: ⭐⭐⭐⭐ Instance-Language协作的双向设计新颖
- 实验充分度: ⭐⭐⭐⭐ LeRF+ScanNet+充分消融
- 写作质量: ⭐⭐⭐⭐ 动机清晰,方法简洁
- 价值: ⭐⭐⭐⭐ 为开放词汇3D分割提供了高效新范式