PseudoMapTrainer: Learning Online Mapping without HD Maps¶

会议: ICCV2025
arXiv: 2508.18788
代码: github.com/boschresearch/PseudoMapTrainer
领域: 自动驾驶 / 在线建图
关键词: 在线建图, 伪标签, Gaussian Splatting, HD Map, 半监督学习, 矢量化地图

一句话总结¶

提出 PseudoMapTrainer，首次实现完全不依赖 GT HD Map 训练在线建图模型：利用 2D Gaussian Splatting（RoGS）从多视角相机图像重建道路表面并结合预训练语义分割（Mask2Former）生成矢量化伪标签，同时设计 mask-aware 匹配算法与损失函数处理部分遮挡的伪标签，支持单次行程和多次行程（众包数据）两种模式。

研究背景与动机¶

在线建图的核心矛盾：当前在线建图模型（如 MapTR、MapTRv2、MapVR）在推理时仅需多视角相机图像即可预测矢量化地图，但训练阶段仍依赖昂贵的高精地图（HD Map）作为 GT。HD Map 标注成本极高，且地理覆盖范围有限，导致模型难以泛化到未标注区域。
现有方案的局限：
- HD Map 数据集（如 nuScenes）仅覆盖少数城市，标注场景单一
- 众包采集的海量行车数据无法被利用，因为缺少对应的 GT 地图
- 没有任何先前工作探索过不使用 GT HD Map 训练在线建图模型的可能性
核心问题：能否从无标注的传感器数据（相机/LiDAR）自动生成伪标签来替代 GT HD Map，实现零 HD Map 依赖的在线建图训练？

方法详解¶

整体流程¶

PseudoMapTrainer 包含两个阶段：

伪标签生成：从无标注行车数据自动构建矢量化地图伪标签
在线模型训练：使用伪标签替代 GT HD Map 训练在线建图模型

阶段一：伪标签生成¶

伪标签生成分为两个子步骤：

1.1 透视图语义分割（Mask2Former）¶

使用 Mask2Former（Swin-Large backbone）在 Mapillary Vistas V2 数据集上训练语义分割模型
选择 6 个与道路相关的语义类别（车道线、人行道、道路边界等）
对 nuScenes 的多视角相机图像进行推理，获取每帧每个视角的像素级语义标签
关键：Mapillary Vistas 是开放数据集，不包含任何 HD Map 信息，因此此步骤不引入 GT 地图依赖

1.2 道路表面重建与矢量化（RoGS）¶

基于 RoGS（Road Gaussian Splatting） 从多视角图像重建道路表面的 3D 表示
RoGS 使用 2D Gaussian Splatting 技术：
- 将道路表面建模为一组 2D 高斯椭圆盘（Gaussian splats）
- 同时优化 RGB 外观和语义标签通道
- 利用车辆位姿信息将多帧多视角观测融合到统一的 3D 空间
从重建的高斯表示中提取 BEV（鸟瞰图）语义地图
对 BEV 语义地图进行矢量化处理，得到由折线（polyline）表示的地图元素（车道分隔线、道路边界、人行横道）
两种模式：
- Single-trip：使用单次行程数据生成伪标签，覆盖范围有限但无需数据对齐
- Multi-trip：聚合同一位置的多次行程数据，通过增加观测密度提升伪标签质量，模拟众包场景

阶段二：在线模型训练¶

Mask-Aware 匹配与损失¶

伪标签的核心挑战在于部分可观测性：由于遮挡和视野限制，伪标签只能覆盖场景的部分区域，其余区域处于未知状态（而非"无地图元素"）。

传统方法的问题：标准的匈牙利匹配会将预测结果与伪标签做全局最优匹配，但伪标签中未覆盖区域的"缺失"会被错误地当作负样本，惩罚模型的正确预测
Mask-Aware 匹配算法：
- 为每个伪标签样本生成一个可见性掩码（visibility mask），标记哪些区域被有效观测
- 在匈牙利匹配时，仅对掩码覆盖区域内的预测-GT 对计算匹配代价
- 掩码外区域的预测不参与匹配，不产生损失
Mask-Aware 损失函数：
- 分类损失：仅对掩码内的预测计算 focal loss
- 回归损失：仅对掩码内的匹配对计算 L1 距离和方向损失
- 掩码外的预测既不被奖励也不被惩罚，避免引入噪声梯度

半监督预训练策略¶

先在大量无标注数据（使用伪标签）上预训练在线建图模型
再在少量有 GT HD Map 的数据上微调
这种策略允许利用海量众包行车数据进行预训练，显著提升模型性能

在线建图骨干网络¶

采用 MapVR / MapTRv2 作为在线建图模型
Transformer decoder 结构，输入多视角相机特征，输出矢量化地图元素
使用地理分割（Geo-split）替代传统的随机分割，确保训练集和验证集地理位置不重叠

实验关键数据¶

数据集¶

nuScenes：6 个相机视角，包含 1000 个场景的自动驾驶数据集
Mapillary Vistas V2：用于训练语义分割模型

伪标签质量评估¶

模式	可观测区域 mAP	全范围 mAP
Single-trip	较高	受限于覆盖范围
Multi-trip	更高	显著提升

Multi-trip 模式通过聚合多次行程显著提升伪标签覆盖率和质量
可选使用 LiDAR 深度先验进一步约束高斯重建精度

在线模型性能¶

核心结论：使用伪标签训练的在线建图模型达到了与使用 GT HD Map 训练的模型可比的性能水平
半监督设置（伪标签预训练 + GT 微调）超越了纯 GT 训练的基线
Mask-aware 匹配与损失对伪标签训练至关重要，去掉后性能显著下降
Multi-trip 伪标签优于 Single-trip 伪标签训练的模型

消融实验¶

Mask-aware vs 标准匹配：mask-aware 方案显著优于忽略可见性的标准匹配
Single-trip vs Multi-trip：Multi-trip 提供更完整的伪标签，训练效果更好
LiDAR 辅助：可选使用 LiDAR 点云约束高斯重建的 z 轴（高度），进一步提升质量
半监督预训练：伪标签预训练 + GT 微调 > 纯 GT 训练，证明了大规模无标注数据的价值

亮点与洞察¶

零 HD Map 训练的开创性：首次证明在线建图模型可以完全不依赖 GT HD Map 进行训练，打破了该领域对昂贵标注数据的刚性依赖
Gaussian Splatting 的巧妙应用：将 2D Gaussian Splatting 从新视角合成任务迁移到道路表面重建，同时优化 RGB 和语义通道，生成高质量 BEV 伪标签
Mask-Aware 设计的必要性：伪标签的部分可观测性是核心技术挑战，mask-aware 匹配与损失的设计使得模型能够在不完整监督下有效学习
众包数据的潜力释放：Multi-trip 模式和半监督预训练策略为利用海量众包行车数据铺平了道路，这在工业界具有巨大实用价值
模块化设计：伪标签生成（Mask2Former + RoGS）与在线模型训练（MapVR）完全解耦，可以方便地替换任一模块

局限与展望¶

伪标签生成成本：虽然不需要 HD Map，但 Gaussian Splatting 重建仍需要较高计算资源，每个场景需独立优化
语义类别受限：当前仅处理 6 个道路相关类别，未覆盖红绿灯、交通标志等更复杂的地图元素
依赖车辆位姿：RoGS 重建需要准确的车辆位姿信息（通常来自 GNSS/IMU），位姿噪声会影响伪标签质量
仅在 nuScenes 上验证：虽然方法理论上可泛化，但缺少在 Argoverse 2、Waymo 等其他数据集上的验证
时机选择局限：单次行程的伪标签在遮挡严重（如停车场景、拥堵路段）时质量可能大幅下降
未考虑时序一致性：当前伪标签生成是逐场景独立的，未利用场景间的时序关联

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评