Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation¶
会议: ECCV 2024
arXiv: 2407.13362
代码: GitHub (有)
领域: 3D视觉
关键词: 开放词汇3D场景理解, 自蒸馏, 几何先验, 知识蒸馏, 超点
一句话总结¶
提出 GGSD 框架,利用3D几何先验(超点语义一致性)引导从2D模型到3D模型的知识蒸馏,并通过自蒸馏机制进一步挖掘3D数据的表征优势,在室内外开放词汇3D场景理解任务上大幅超越现有方法。
研究背景与动机¶
- 领域现状: 开放词汇3D场景理解是实现机器人操作、自动驾驶等应用的关键技术,当前主流方案依赖将互联网规模的2D视觉-语言知识通过蒸馏迁移至3D模型
- 现有痛点: 现有蒸馏方法(如 OpenScene)本质上是简单模仿2D模型,2D模型固有的遮挡、光照变化、视角差异等问题会通过蒸馏传导给3D模型,限制其表征上界
- 核心矛盾: 3D数据天然具有不受光照/视角影响的表征优势,但现有方法未充分利用这一几何先验,导致蒸馏后的3D模型反而受限于2D教师模型的噪声
- 本文解决什么: 如何在2D→3D蒸馏过程中利用3D几何先验降噪,以及如何通过自蒸馏进一步释放3D数据的表征能力
- 切入角度: 观察到蒸馏后的3D学生模型可以显著超越2D教师模型(因3D表征优势),由此设计"先从2D学,再从自己学"的两阶段策略
- 核心idea: 利用超点(superpoint)的语义一致性约束蒸馏过程中的噪声,并结合 EMA 模型的投票机制实现可靠的自蒸馏
方法详解¶
整体框架¶
GGSD 包含两个核心模块:几何引导蒸馏(Geometry Guided Distillation)和自蒸馏(Self-Distillation)。第一阶段从2D预训练模型(LSeg/OpenSeg)学习开放词汇能力,同时利用3D几何先验缓解2D噪声;第二阶段利用已学到的3D表征优势,通过 EMA 模型和超点投票机制进行自蒸馏,进一步提升性能。
关键设计¶
模块一:像素-点特征对创建
沿用 OpenScene 的流程,利用预训练的2D视觉-语言分割模型(LSeg/OpenSeg)提取逐像素稠密嵌入,通过相机内参和外参矩阵建立3D点与2D像素的对应关系,对多视角特征进行平均池化融合:
得到每个3D点的融合2D特征 \(\mathbf{F}^{\text{2D}} \in \mathbb{R}^{M \times C}\)。
模块二:几何引导蒸馏
利用 VCCS 算法将点云分解为几何均匀的超点 \(\{\tilde{\mathbf{p}}_1, \cdots, \tilde{\mathbf{p}}_N\}\),每个超点内的点通常属于同一语义类别。对超点内的2D和3D特征分别计算均值:
然后通过超点级余弦相似性损失约束语义一致性:
总蒸馏损失为点级别与超点级别的组合:\(\mathcal{L}_d = \mathcal{L}_p + \mathcal{L}_{sp}\)。
模块三:几何引导自蒸馏
利用 EMA 模型对每个3D点预测伪标签,通过与 CLIP 文本嵌入计算相似度分配语义类别:
在每个超点内进行投票,将超点内所有点的标签统一为最高票数的类别,以此降噪。最终通过对比学习损失训练:
其中温度因子 \(\tau = 0.01\)。
损失函数 / 训练策略¶
- 两阶段训练: 第一阶段用几何引导蒸馏训练70个 epoch,第二阶段加入自蒸馏模块再训练30个 epoch,总epoch数与 OpenScene 一致
- EMA 模型: 使用指数移动平均模型提供稳定的伪标签监督,避免直接使用网络预测导致的模式坍塌
- 3D backbone: MinkowskiNet18A,室内 voxel size 2cm,室外 5cm
- 优化器: Adam,学习率 \(1 \times 10^{-4}\),单卡 A100 80G,batch size 8
实验关键数据¶
主实验¶
| 方法 | ScanNet mIoU | ScanNet mAcc | nuScenes mIoU | nuScenes mAcc |
|---|---|---|---|---|
| OpenScene (2D-3D ensemble) | 54.2 | 66.6 | 42.1 | 61.8 |
| OpenScene (pure 3D) | 52.9 | 63.2 | 42.9 | 57.1 |
| CLIP-FO3D | 30.2 | 49.1 | - | - |
| CNS | 26.8 | - | 33.5 | - |
| GGSD (Ours) | 56.5 | 68.6 | 46.1 | 59.2 |
仅用纯3D点云即超越 OpenScene 的2D-3D集成策略,ScanNet +3.6% mIoU,nuScenes +3.2% mIoU。
消融实验¶
| 组件 | ScanNet mIoU | ScanNet mAcc | Matterport mIoU | Matterport mAcc |
|---|---|---|---|---|
| 2D Fusion Projection | 50.0 | 62.7 | 32.3 | 40.0 |
| Pixel-Point Distillation | 52.9 | 63.2 | 36.1 | 48.0 |
| + Geometry Guided Distillation | 53.5 | 65.0 | 36.7 | 49.3 |
| + Self-Distillation | 56.1 | 68.2 | 39.0 | 53.3 |
| + Geometry Guided Self-Distillation | 56.5 | 68.6 | 40.1 | 54.4 |
关键发现¶
- 几何引导蒸馏在 ScanNet 上带来 +0.6% mIoU 和 +1.8% mAcc 提升,通过超点语义一致性约束有效缓解2D噪声
- 自蒸馏贡献最大:ScanNet +2.6% mIoU,Matterport +2.3% mIoU,验证了3D表征优势可通过自蒸馏释放
- EMA 模型优于固定2D模型和固定3D模型作为监督信号源
- 跨域实验中(ScanNet→Matterport),GGSD 在 21/40/80/160 类别量级上均优于 OpenScene,展现强泛化能力
- 使用 SAM 精化2D特征的效果不如利用3D几何先验(0.1% vs 0.6% mIoU提升)
亮点与洞察¶
- 核心洞察精准: "3D学生可超越2D教师" 这一观察是自蒸馏设计的强动机,将蒸馏从单向模仿升级为双向增强
- 超点投票机制 是简洁有效的降噪手段,利用几何结构的语义一致性假设,实用且开销低
- 无需额外标注数据: 整个训练流程不依赖任何2D或3D的 ground truth 标注
- 跨域泛化能力强,ScanNet 训练的模型可零样本迁移到 Matterport3D
局限与展望¶
- 尾部类别(小尺寸、少样本)性能仍不理想,Tail 类 mIoU 仅 16.0%
- 超点构建依赖 VCCS 算法,对极度稀疏或无序点云可能不够鲁棒
- 语言歧义问题:沙发椅可能被分别识别为"沙发"和"椅子"
- 自蒸馏阶段仍使用预定义的类别文本模板,未探索更灵活的开放文本查询
相关工作与启发¶
- OpenScene: 本文的主要基线,提出像素-点特征蒸馏框架,但受限于2D模型噪声
- CLIP2Scene / CNS: 利用 CLIP 做3D场景理解,性能远低于本文
- Mean Teacher / EMA: 自蒸馏中的 EMA 策略借鉴了半监督学习经典范式
- 启发: 超点的语义一致性约束思路可推广到其他3D任务(如实例分割、目标检测)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将自蒸馏与几何先验结合的思路新颖,"学生超越教师再自学习"的范式有启发性
- 实验充分度: ⭐⭐⭐⭐⭐ — 室内外数据集全覆盖,消融实验充分,跨域实验有说服力
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,逻辑流畅,图示直观
- 实用价值: ⭐⭐⭐⭐ — 代码开源,性能提升显著,在实际场景中有应用潜力
相关论文¶
- [ICLR 2026] GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation
- [ICCV 2025] Open-Vocabulary Octree-Graph for 3D Scene Understanding
- [ECCV 2024] Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models
- [CVPR 2026] LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds
- [AAAI 2026] OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding