Open Vocabulary 3D Scene Understanding via Geometry Guided Self-Distillation¶

会议: ECCV 2024
arXiv: 2407.13362
代码: GitHub (有)
领域: 3D视觉
关键词: 开放词汇3D场景理解, 自蒸馏, 几何先验, 知识蒸馏, 超点

一句话总结¶

提出 GGSD 框架，利用3D几何先验（超点语义一致性）引导从2D模型到3D模型的知识蒸馏，并通过自蒸馏机制进一步挖掘3D数据的表征优势，在室内外开放词汇3D场景理解任务上大幅超越现有方法。

研究背景与动机¶

领域现状: 开放词汇3D场景理解是实现机器人操作、自动驾驶等应用的关键技术，当前主流方案依赖将互联网规模的2D视觉-语言知识通过蒸馏迁移至3D模型
现有痛点: 现有蒸馏方法（如 OpenScene）本质上是简单模仿2D模型，2D模型固有的遮挡、光照变化、视角差异等问题会通过蒸馏传导给3D模型，限制其表征上界
核心矛盾: 3D数据天然具有不受光照/视角影响的表征优势，但现有方法未充分利用这一几何先验，导致蒸馏后的3D模型反而受限于2D教师模型的噪声
本文解决什么: 如何在2D→3D蒸馏过程中利用3D几何先验降噪，以及如何通过自蒸馏进一步释放3D数据的表征能力
切入角度: 观察到蒸馏后的3D学生模型可以显著超越2D教师模型（因3D表征优势），由此设计"先从2D学，再从自己学"的两阶段策略
核心idea: 利用超点（superpoint）的语义一致性约束蒸馏过程中的噪声，并结合 EMA 模型的投票机制实现可靠的自蒸馏

方法详解¶

整体框架¶

GGSD 包含两个核心模块：几何引导蒸馏（Geometry Guided Distillation）和自蒸馏（Self-Distillation）。第一阶段从2D预训练模型（LSeg/OpenSeg）学习开放词汇能力，同时利用3D几何先验缓解2D噪声；第二阶段利用已学到的3D表征优势，通过 EMA 模型和超点投票机制进行自蒸馏，进一步提升性能。

关键设计¶

模块一：像素-点特征对创建

沿用 OpenScene 的流程，利用预训练的2D视觉-语言分割模型（LSeg/OpenSeg）提取逐像素稠密嵌入，通过相机内参和外参矩阵建立3D点与2D像素的对应关系，对多视角特征进行平均池化融合：

\[\mathbf{f}^{\text{2D}} = \phi(\mathbf{f}_1, \cdots, \mathbf{f}_K)\]

得到每个3D点的融合2D特征 \(\mathbf{F}^{\text{2D}} \in \mathbb{R}^{M \times C}\)。

模块二：几何引导蒸馏

利用 VCCS 算法将点云分解为几何均匀的超点 \(\{\tilde{\mathbf{p}}_1, \cdots, \tilde{\mathbf{p}}_N\}\)，每个超点内的点通常属于同一语义类别。对超点内的2D和3D特征分别计算均值：

\[\tilde{\mathbf{f}}_n^{\text{2D}} = \frac{1}{Q} \sum_{q=1}^{Q} \mathbf{f}_q^{\text{2D}}\]

然后通过超点级余弦相似性损失约束语义一致性：

\[\mathcal{L}_{sp} = 1 - \cos(\mathbf{F}_{sp}^{\text{2D}}, \mathbf{F}_{sp}^{\text{3D}})\]

总蒸馏损失为点级别与超点级别的组合：\(\mathcal{L}_d = \mathcal{L}_p + \mathcal{L}_{sp}\)。

模块三：几何引导自蒸馏

利用 EMA 模型对每个3D点预测伪标签，通过与 CLIP 文本嵌入计算相似度分配语义类别：

\[\mathbf{f}^{\hat{t}} = \arg\max_l \psi(\mathbf{f}_n^{\text{3D}}, \mathbf{f}_l^t)\]

在每个超点内进行投票，将超点内所有点的标签统一为最高票数的类别，以此降噪。最终通过对比学习损失训练：

\[\mathcal{L}_{sd} = -\log \frac{\exp(\mathbf{f}^{\text{3D}} \cdot \mathbf{f}^{\hat{t}} / \tau)}{\sum_{i=1}^{n_t} \exp(\mathbf{f}^{\text{3D}} \cdot \mathbf{f}_i^t / \tau)}\]

其中温度因子 \(\tau = 0.01\)。

损失函数 / 训练策略¶

两阶段训练: 第一阶段用几何引导蒸馏训练70个 epoch，第二阶段加入自蒸馏模块再训练30个 epoch，总epoch数与 OpenScene 一致
EMA 模型: 使用指数移动平均模型提供稳定的伪标签监督，避免直接使用网络预测导致的模式坍塌
3D backbone: MinkowskiNet18A，室内 voxel size 2cm，室外 5cm
优化器: Adam，学习率 \(1 \times 10^{-4}\)，单卡 A100 80G，batch size 8

实验关键数据¶

主实验¶

方法	ScanNet mIoU	ScanNet mAcc	nuScenes mIoU	nuScenes mAcc
OpenScene (2D-3D ensemble)	54.2	66.6	42.1	61.8
OpenScene (pure 3D)	52.9	63.2	42.9	57.1
CLIP-FO3D	30.2	49.1	-	-
CNS	26.8	-	33.5	-
GGSD (Ours)	56.5	68.6	46.1	59.2

仅用纯3D点云即超越 OpenScene 的2D-3D集成策略，ScanNet +3.6% mIoU，nuScenes +3.2% mIoU。

消融实验¶

组件	ScanNet mIoU	ScanNet mAcc	Matterport mIoU	Matterport mAcc
2D Fusion Projection	50.0	62.7	32.3	40.0
Pixel-Point Distillation	52.9	63.2	36.1	48.0
+ Geometry Guided Distillation	53.5	65.0	36.7	49.3
+ Self-Distillation	56.1	68.2	39.0	53.3
+ Geometry Guided Self-Distillation	56.5	68.6	40.1	54.4

关键发现¶

几何引导蒸馏在 ScanNet 上带来 +0.6% mIoU 和 +1.8% mAcc 提升，通过超点语义一致性约束有效缓解2D噪声
自蒸馏贡献最大：ScanNet +2.6% mIoU，Matterport +2.3% mIoU，验证了3D表征优势可通过自蒸馏释放
EMA 模型优于固定2D模型和固定3D模型作为监督信号源
跨域实验中（ScanNet→Matterport），GGSD 在 21/40/80/160 类别量级上均优于 OpenScene，展现强泛化能力
使用 SAM 精化2D特征的效果不如利用3D几何先验（0.1% vs 0.6% mIoU提升）

亮点与洞察¶

核心洞察精准: "3D学生可超越2D教师" 这一观察是自蒸馏设计的强动机，将蒸馏从单向模仿升级为双向增强
超点投票机制 是简洁有效的降噪手段，利用几何结构的语义一致性假设，实用且开销低
无需额外标注数据: 整个训练流程不依赖任何2D或3D的 ground truth 标注
跨域泛化能力强，ScanNet 训练的模型可零样本迁移到 Matterport3D

局限与展望¶

尾部类别（小尺寸、少样本）性能仍不理想，Tail 类 mIoU 仅 16.0%
超点构建依赖 VCCS 算法，对极度稀疏或无序点云可能不够鲁棒
语言歧义问题：沙发椅可能被分别识别为"沙发"和"椅子"
自蒸馏阶段仍使用预定义的类别文本模板，未探索更灵活的开放文本查询

评分¶

新颖性: ⭐⭐⭐⭐ — 将自蒸馏与几何先验结合的思路新颖，"学生超越教师再自学习"的范式有启发性
实验充分度: ⭐⭐⭐⭐⭐ — 室内外数据集全覆盖，消融实验充分，跨域实验有说服力
写作质量: ⭐⭐⭐⭐ — 动机清晰，逻辑流畅，图示直观
实用价值: ⭐⭐⭐⭐ — 代码开源，性能提升显著，在实际场景中有应用潜力