LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes¶

会议: CVPR 2025
arXiv: 2501.04004
代码: https://github.com/Xiangxu-0103/LiMoE (有)
领域: 自动驾驶 / 点云学习
关键词: LiDAR自监督, 混合专家, 多表示融合, 对比学习, 点云分割

一句话总结¶

提出 LiMoE，通过混合专家（MoE）机制融合三种互补的 LiDAR 表示（距离图/稀疏体素/原始点云），三阶段训练（图像→LiDAR 预训练 → 对比混合学习 → 语义混合监督），在 nuScenes 分割上达到 51.4% mIoU，跨域泛化到 7 个数据集。

研究背景与动机¶

领域现状¶

领域现状：LiDAR 点云可以转换为多种表示——距离图（range image, 保留传感器原始结构）、稀疏体素（voxel, 3D 空间结构）和原始点云（point, 精细细节）。每种表示各有优势但信息互补。

现有痛点：现有自监督方法只用一种表示（如 UniPAD 用体素，SLidR 用距离图），浪费了互补信息。简单拼接或平均融合效果不佳——不同查询需要不同表示的不同贡献。

核心矛盾：三种表示的特征空间和信息密度完全不同（距离图是 2D 密集的、体素是 3D 稀疏的、点云是无序的），直接融合困难。

切入角度：用 MoE 的门控机制让网络自动为每个查询选择最合适的表示组合——动态加权而非静态融合。

核心 idea：图像蒸馏预训练三种LiDAR编码器 → MoE 动态融合 → 语义混合监督 = 统一强力点云表示。

解决思路¶

本文目标：### 关键设计

Stage 1: 图像→LiDAR 知识蒸馏：用 2D 图像 backbone 的特征蒸馏到三种 LiDAR 编码器，继承图像模型的语义理解能力
Stage 2: 对比混合学习（CML）：MoE 层用门控+噪声注入动态激活三种表示的特征，对比损失将混合特征蒸馏到统一的学生编码器中
Stage 3: 语义混合监督（SMS）：将 MoE。

方法详解¶

关键设计¶

Stage 1: 图像→LiDAR 知识蒸馏：用 2D 图像 backbone 的特征蒸馏到三种 LiDAR 编码器，继承图像模型的语义理解能力
Stage 2: 对比混合学习（CML）：MoE 层用门控+噪声注入动态激活三种表示的特征，对比损失将混合特征蒸馏到统一的学生编码器中
Stage 3: 语义混合监督（SMS）：将 MoE 扩展到下游分割，三种表示各自预测语义 logits，MoE 加权融合

损失函数 / 训练策略¶

对比: \(\mathcal{L}_{con} = -\frac{1}{S}\sum_i \log \frac{e^{\langle k_i, q_i\rangle/\tau}}{\sum_{j\neq i} e^{\langle k_i, q_j\rangle/\tau}}\)。分割: CE + Lovász-Softmax + 边界损失。

实验关键数据¶

数据集	LiMoE (ViT-L)	最佳单表示	提升
nuScenes 分割	51.4% mIoU	~46-48	+3-5
SemanticKITTI (1%)	44.85%	~40	+4-5
nuScenes-C 鲁棒性	mCE 88.43	—	最佳

消融实验¶

MoE 显著优于拼接/平均——因为不同区域需要不同表示的贡献
三种不同表示 > 三种相同表示——互补性是关键
每种表示有独特的激活模式：距离图关注中间光束/动态物体，体素关注上层/静态背景，点云关注下层/细节

关键发现¶

互补性分析很有洞察力：可视化显示距离图/体素/点云在不同波束号、距离和语义类别上有截然不同的贡献模式
跨域泛化到 7 个数据集一致有效

亮点与洞察¶

MoE 的动态融合 > 静态融合——让每个查询点自主选择最有用的表示
互补性量化分析——可视化每种表示的"专长区域"对理解LiDAR感知有启发

局限与展望¶

SMS 阶段计算量大（85.8M 参数, 8.3 FPS）
距离图在部分跨数据集中因未知 FoV 参数不可用
仅探索了 2D 表示（距离图），3D 表示可能还有更多选择

评分¶

新颖性: ⭐⭐⭐⭐ MoE 在LiDAR多表示融合中的应用新颖
实验充分度: ⭐⭐⭐⭐⭐ nuScenes+KITTI+7个跨域数据集+鲁棒性测试
写作质量: ⭐⭐⭐⭐ 互补性分析清晰
价值: ⭐⭐⭐⭐ 为LiDAR表示学习提供了统一框架