ItTakesTwo: Leveraging Peer Representations for Semi-supervised LiDAR Semantic Segmentation¶

会议: ECCV 2024
arXiv: 2407.07171
代码: https://github.com/yyliu01/IT2 (有)
领域: 自动驾驶 / 3D语义分割
关键词: 半监督学习, LiDAR语义分割, 对等表示一致性, 对比学习, 高斯混合模型

一句话总结¶

提出IT2框架，通过利用LiDAR数据的对等表示（range image + voxel grid）之间的一致性学习作为新型扰动形式，并引入基于高斯混合模型的跨分布对比学习，大幅提升半监督LiDAR语义分割性能。

研究背景与动机¶

领域现状：户外LiDAR语义分割是自动驾驶的基础任务。当前方法通过将点云转换为不同表示（range image、voxel grid、BEV等）来提取特征，但高度依赖大规模标注数据。LiDAR点云标注极其耗时昂贵，推动了半监督学习（SSL）方法的发展。

现有痛点：

一致性学习局限：现有SSL方法（如LaserMix、Mean Teacher）仅在单一LiDAR表示上进行一致性学习，扰动形式有限（数据增强、网络扰动），泛化能力受限。不同表示各有弱点——range view在投影过程中丢失信息（如Pole类别mIoU仅52.02），voxel grid在远距离密集区域精度差（如Sidewalk类别mIoU仅69.50）。

对比学习瓶颈：现有对比学习方法从有限的mini-batch中随机采样正负embedding对，无法全面理解整个嵌入空间的分布。多表示场景下，一个表示的噪声预测还会通过对比学习传导到另一个表示，造成确认偏差。

核心矛盾：同一3D点云在不同表示下应有相同的语义——range image和voxel grid中同一点的"terrain"标签一定相同——但它们的预测置信度和错误模式截然不同。这种互补性被现有单表示SSL方法完全忽视。

本文切入角度：将不同LiDAR表示之间的差异视为一种天然的"扰动"——不同于传统的数据增强扰动，对等表示扰动本质上是对同一语义信息的不同观察方式，提供了更有效的一致性学习信号。

核心idea：通过对等表示之间的交叉伪标签监督实现一致性学习（range预测监督voxel，反之亦然），同时用GMM建模跨表示的嵌入分布来采样高信息量的对比学习样本。

方法详解¶

整体框架¶

IT2同时训练两个网络：range网络（FIDNet/ResNet34）处理range image，voxel网络（Cylinder3D）处理voxel grid。同一点云被同时转换为两种表示送入各自网络。在无标签数据上，一个表示的预测通过表示转换映射到另一个表示空间，作为伪标签进行交叉监督。同时，两个网络的嵌入空间通过GMM建模后进行跨分布对比学习。

关键设计¶

对等表示一致性学习 (Peer-Representation Consistency)：核心思路是将voxel网络的预测投影到range图像空间（或反向），作为对方的伪标签进行交叉监督。具体通过表示间的双向投影函数实现：

$$\tilde{\mathbf{y}}^r(\omega^r) = \text{argmax}\ \Psi_{v \to r}^{(\omega^r)}(\hat{\mathbf{y}}^v), \quad \tilde{\mathbf{y}}^v(\omega^v) = \text{argmax}\ \Psi_{r \to v}^{(\omega^v)}(\hat{\mathbf{y}}^r)$$

其中 $\Psi_{v \to r} = \psi_{p \to r} \circ \psi_{v \to p}$ 通过3D点空间中转完成表示间的投影。总损失为两个表示的有标签+无标签损失之和：

$$\ell_{\text{IT2}} = \ell_{\text{range}} + \ell_{\text{voxel}}$$

设计动机：不同表示对同一场景的错误模式互补——range view对细长物体（Pole）弱，voxel对远距离密集物体（Sidewalk）弱。交叉监督利用这种互补性，减少单表示伪标签的确认偏差。

跨分布对比学习 (Cross-Distribution Contrastive Learning)：不同于传统从mini-batch采样嵌入的做法，IT2使用类别级高斯混合模型（GMM）建模两个表示的联合嵌入空间。GMM参数通过EM算法优化，其中伪标签置信度作为权重因子降低低质量标签的影响：

$$\mathbf{P}_{\Gamma^y}(\mathbf{z}|y) = \sum_{m=1}^{M} \boldsymbol{\pi}_m^y \mathcal{N}(\mathbf{z}; \boldsymbol{\mu}_m^y, \boldsymbol{\Sigma}_m^y)$$

每个类别使用 $M=5$ 个高斯分量。训练时，从GMM分布中采样虚拟的正负原型样本，而非从实际训练样本中随机选取：

$$\ell_{\text{cross}} = \sum_{(\mathbf{z},y) \in \mathcal{A}} \sum_{\mathbf{s} \in \mathcal{S}^y} -\log \frac{\exp(\mathbf{z} \cdot \mathbf{s} / \tau)}{\exp(\mathbf{z} \cdot \mathbf{s} / \tau) + \sum_{\mathbf{s}^- \in \bar{\mathcal{S}}^y} \exp(\mathbf{z} \cdot \mathbf{s}^- / \tau)}$$

设计动机：GMM能学习到嵌入空间的完整分布特征（多模态、协方差结构），采样出的虚拟原型比随机采样更具代表性和信息量，且不参与反向传播，避免了跨表示噪声传导。

表示特定数据增强 (Representation-Specific Augmentation)：不同表示适合不同的增强策略——range image使用multi-boxes CutMix，voxel使用single-inclination LaserMix。不同于以往对所有表示使用相同增强的做法。

设计动机：range image是2D投影，适合2D空间切割增强；voxel是3D结构，适合基于激光束角度的3D增强。适配的增强策略能带来更好的泛化。

损失函数 / 训练策略¶

总训练损失：$\mathcal{L} = \ell_{\text{IT2}} + \ell_{\text{cross}}$，端到端优化
分割损失 $\ell$ 由交叉熵 + Lovász-Softmax组成
对比学习温度系数 $\tau = 0.1$
嵌入投影器为3层MLP，输出64维
GMM组件数 $M=5$，均匀权重 $\pi_m^y = 1/M$

实验关键数据¶

主实验（Uniform Sampling）¶

nuScenes数据集 (mIoU%)：

方法	表示	1%	10%	20%	50%
LaserMix	Range	49.5	68.2	70.6	73.0
IT2 (Ours)	Range	56.5	71.3	73.4	74.0
LaserMix	Voxel	55.3	69.9	71.8	73.2
IT2 (Ours)	Voxel	57.5	72.1	73.6	74.1

SemanticKITTI + ScribbleKITTI (mIoU%)：

方法	表示	KITTI 1%	KITTI 10%	Scribble 1%	Scribble 10%
LaserMix	Range	43.4	58.8	38.3	54.4
IT2	Range	51.9	60.3	46.6	57.1
LaserMix	Voxel	50.6	60.0	44.2	53.7
IT2	Voxel	52.0	61.4	47.9	56.7

在nuScenes 1%标签条件下，Range提升+7.0%，Voxel提升+2.2%。ScribbleKITTI 1%标签下Range提升+8.3%。

消融实验¶

各组件贡献（nuScenes + ScribbleKITTI, Range表示）：

IT2架构	对比学习	增强	nuScenes 10%	ScribbleKITTI 10%	说明
✗	✗	✗	60.8	50.0	CPS基线
✓	✗	✗	67.3 (+6.5)	53.2 (+3.2)	对等表示一致性
✓	✓	✗	70.3 (+9.5)	54.9 (+4.9)	+跨分布对比学习
✓	✓	✓	71.3 (+10.5)	57.1 (+7.1)	+表示特定增强

三个组件均有明显贡献，其中IT2架构本身贡献最大（+6.5%），对比学习在此基础上进一步提升约3%，增强策略再贡献约1-2%。

关键发现¶

对比学习对比：与ContrasSeg（像素级对比学习SOTA）相比，GMM-based方法在nuScenes 10%上提升约1% mIoU（range: 71.3 vs 70.3, voxel: 72.1 vs 71.2），证明分布采样优于随机采样
温度系数：$\tau=0.10$ 为最优值（在nuScenes 10%上），过大或过小均导致性能退化
多表示扩展性：加入BEV（PolarNet）作为第三表示，能进一步提升性能（与range搭配+6.3%，与voxel搭配+7.8%），证明方法可扩展到任意表示组合
Partial/Significant Sampling：在SemanticKITTI partial 5%上超GPC +4.5%（43.8 vs 40.2），在significant 10%上超lim3D +2.2%
增强策略：range用multi CutMix + voxel用1-inc LaserMix的组合最优，比统一使用LaserMix在range上+1.3%

亮点与洞察¶

核心洞察出色：不同LiDAR表示是同一3D场景的不同"观察"，天然满足聚类假设——这是一种比数据增强更本质的扰动形式
利用GMM建模嵌入分布再采样是非常优雅的方案——既能覆盖完整分布，又通过置信度加权避免噪声伪标签的影响
跨表示的交叉伪标签监督巧妙地利用了表示间的互补性，减少了单表示SSL固有的确认偏差
方法框架的通用性好：可扩展到任意LiDAR表示组合（range+voxel+BEV），且均带来显著提升

局限与展望¶

使用两个表示意味着两个独立网络，训练计算开销翻倍
表示间的投影映射依赖于精确的点云坐标，传感器噪声可能影响跨表示标签质量
GMM假设嵌入分布为高斯混合，对于某些复杂类别可能不够灵活
可探索：将Camera模态引入作为第三种表示，实现LiDAR-Camera SSL融合
可探索：将对等表示一致性思路推广到其他SSL领域（如医学影像的多模态SSL）

评分¶

新颖性: ⭐⭐⭐⭐ 对等表示一致性学习和GMM-based对比学习均为有意义的创新
实验充分度: ⭐⭐⭐⭐⭐ 3个数据集×3种采样策略×多种消融+扩展表示+对比学习对比，极其充分
写作质量: ⭐⭐⭐⭐ 动机分析透彻（Fig.1的互补性示意），数学公式清晰完整
价值: ⭐⭐⭐⭐ 对LiDAR SSL领域有显著推动，在nuScenes 1%设置下+7% mIoU的提升具有实际意义