跳转至

Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation

会议: ECCV 2024
arXiv: 2407.13362
代码: GitHub (有)
领域: 3D视觉
关键词: 开放词汇3D场景理解, 自蒸馏, 几何先验, 知识蒸馏, 超点

一句话总结

提出 GGSD 框架,利用3D几何先验(超点语义一致性)引导从2D模型到3D模型的知识蒸馏,并通过自蒸馏机制进一步挖掘3D数据的表征优势,在室内外开放词汇3D场景理解任务上大幅超越现有方法。

研究背景与动机

  • 领域现状: 开放词汇3D场景理解是实现机器人操作、自动驾驶等应用的关键技术,当前主流方案依赖将互联网规模的2D视觉-语言知识通过蒸馏迁移至3D模型
  • 现有痛点: 现有蒸馏方法(如 OpenScene)本质上是简单模仿2D模型,2D模型固有的遮挡、光照变化、视角差异等问题会通过蒸馏传导给3D模型,限制其表征上界
  • 核心矛盾: 3D数据天然具有不受光照/视角影响的表征优势,但现有方法未充分利用这一几何先验,导致蒸馏后的3D模型反而受限于2D教师模型的噪声
  • 本文解决什么: 如何在2D→3D蒸馏过程中利用3D几何先验降噪,以及如何通过自蒸馏进一步释放3D数据的表征能力
  • 切入角度: 观察到蒸馏后的3D学生模型可以显著超越2D教师模型(因3D表征优势),由此设计"先从2D学,再从自己学"的两阶段策略
  • 核心idea: 利用超点(superpoint)的语义一致性约束蒸馏过程中的噪声,并结合 EMA 模型的投票机制实现可靠的自蒸馏

方法详解

整体框架

GGSD 包含两个核心模块:几何引导蒸馏(Geometry Guided Distillation)和自蒸馏(Self-Distillation)。第一阶段从2D预训练模型(LSeg/OpenSeg)学习开放词汇能力,同时利用3D几何先验缓解2D噪声;第二阶段利用已学到的3D表征优势,通过 EMA 模型和超点投票机制进行自蒸馏,进一步提升性能。

关键设计

模块一:像素-点特征对创建

沿用 OpenScene 的流程,利用预训练的2D视觉-语言分割模型(LSeg/OpenSeg)提取逐像素稠密嵌入,通过相机内参和外参矩阵建立3D点与2D像素的对应关系,对多视角特征进行平均池化融合:

\[\mathbf{f}^{\text{2D}} = \phi(\mathbf{f}_1, \cdots, \mathbf{f}_K)\]

得到每个3D点的融合2D特征 \(\mathbf{F}^{\text{2D}} \in \mathbb{R}^{M \times C}\)

模块二:几何引导蒸馏

利用 VCCS 算法将点云分解为几何均匀的超点 \(\{\tilde{\mathbf{p}}_1, \cdots, \tilde{\mathbf{p}}_N\}\),每个超点内的点通常属于同一语义类别。对超点内的2D和3D特征分别计算均值:

\[\tilde{\mathbf{f}}_n^{\text{2D}} = \frac{1}{Q} \sum_{q=1}^{Q} \mathbf{f}_q^{\text{2D}}\]

然后通过超点级余弦相似性损失约束语义一致性:

\[\mathcal{L}_{sp} = 1 - \cos(\mathbf{F}_{sp}^{\text{2D}}, \mathbf{F}_{sp}^{\text{3D}})\]

总蒸馏损失为点级别与超点级别的组合:\(\mathcal{L}_d = \mathcal{L}_p + \mathcal{L}_{sp}\)

模块三:几何引导自蒸馏

利用 EMA 模型对每个3D点预测伪标签,通过与 CLIP 文本嵌入计算相似度分配语义类别:

\[\mathbf{f}^{\hat{t}} = \arg\max_l \psi(\mathbf{f}_n^{\text{3D}}, \mathbf{f}_l^t)\]

在每个超点内进行投票,将超点内所有点的标签统一为最高票数的类别,以此降噪。最终通过对比学习损失训练:

\[\mathcal{L}_{sd} = -\log \frac{\exp(\mathbf{f}^{\text{3D}} \cdot \mathbf{f}^{\hat{t}} / \tau)}{\sum_{i=1}^{n_t} \exp(\mathbf{f}^{\text{3D}} \cdot \mathbf{f}_i^t / \tau)}\]

其中温度因子 \(\tau = 0.01\)

损失函数 / 训练策略

  • 两阶段训练: 第一阶段用几何引导蒸馏训练70个 epoch,第二阶段加入自蒸馏模块再训练30个 epoch,总epoch数与 OpenScene 一致
  • EMA 模型: 使用指数移动平均模型提供稳定的伪标签监督,避免直接使用网络预测导致的模式坍塌
  • 3D backbone: MinkowskiNet18A,室内 voxel size 2cm,室外 5cm
  • 优化器: Adam,学习率 \(1 \times 10^{-4}\),单卡 A100 80G,batch size 8

实验关键数据

主实验

方法 ScanNet mIoU ScanNet mAcc nuScenes mIoU nuScenes mAcc
OpenScene (2D-3D ensemble) 54.2 66.6 42.1 61.8
OpenScene (pure 3D) 52.9 63.2 42.9 57.1
CLIP-FO3D 30.2 49.1 - -
CNS 26.8 - 33.5 -
GGSD (Ours) 56.5 68.6 46.1 59.2

仅用纯3D点云即超越 OpenScene 的2D-3D集成策略,ScanNet +3.6% mIoU,nuScenes +3.2% mIoU。

消融实验

组件 ScanNet mIoU ScanNet mAcc Matterport mIoU Matterport mAcc
2D Fusion Projection 50.0 62.7 32.3 40.0
Pixel-Point Distillation 52.9 63.2 36.1 48.0
+ Geometry Guided Distillation 53.5 65.0 36.7 49.3
+ Self-Distillation 56.1 68.2 39.0 53.3
+ Geometry Guided Self-Distillation 56.5 68.6 40.1 54.4

关键发现

  • 几何引导蒸馏在 ScanNet 上带来 +0.6% mIoU 和 +1.8% mAcc 提升,通过超点语义一致性约束有效缓解2D噪声
  • 自蒸馏贡献最大:ScanNet +2.6% mIoU,Matterport +2.3% mIoU,验证了3D表征优势可通过自蒸馏释放
  • EMA 模型优于固定2D模型和固定3D模型作为监督信号源
  • 跨域实验中(ScanNet→Matterport),GGSD 在 21/40/80/160 类别量级上均优于 OpenScene,展现强泛化能力
  • 使用 SAM 精化2D特征的效果不如利用3D几何先验(0.1% vs 0.6% mIoU提升)

亮点与洞察

  • 核心洞察精准: "3D学生可超越2D教师" 这一观察是自蒸馏设计的强动机,将蒸馏从单向模仿升级为双向增强
  • 超点投票机制 是简洁有效的降噪手段,利用几何结构的语义一致性假设,实用且开销低
  • 无需额外标注数据: 整个训练流程不依赖任何2D或3D的 ground truth 标注
  • 跨域泛化能力强,ScanNet 训练的模型可零样本迁移到 Matterport3D

局限与展望

  • 尾部类别(小尺寸、少样本)性能仍不理想,Tail 类 mIoU 仅 16.0%
  • 超点构建依赖 VCCS 算法,对极度稀疏或无序点云可能不够鲁棒
  • 语言歧义问题:沙发椅可能被分别识别为"沙发"和"椅子"
  • 自蒸馏阶段仍使用预定义的类别文本模板,未探索更灵活的开放文本查询

相关工作与启发

  • OpenScene: 本文的主要基线,提出像素-点特征蒸馏框架,但受限于2D模型噪声
  • CLIP2Scene / CNS: 利用 CLIP 做3D场景理解,性能远低于本文
  • Mean Teacher / EMA: 自蒸馏中的 EMA 策略借鉴了半监督学习经典范式
  • 启发: 超点的语义一致性约束思路可推广到其他3D任务(如实例分割、目标检测)

评分

  • 新颖性: ⭐⭐⭐⭐ — 将自蒸馏与几何先验结合的思路新颖,"学生超越教师再自学习"的范式有启发性
  • 实验充分度: ⭐⭐⭐⭐⭐ — 室内外数据集全覆盖,消融实验充分,跨域实验有说服力
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰,逻辑流畅,图示直观
  • 实用价值: ⭐⭐⭐⭐ — 代码开源,性能提升显著,在实际场景中有应用潜力

相关论文