跳转至

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

会议: CVPR 2026
arXiv: 2603.10688
代码: 无
领域: 自动驾驶 / 高精地图
关键词: 在线高精地图构建, 地理空间对比学习, 半监督学习, BEV特征, 多次遍历

一句话总结

提出 MapGCLR,一种基于地理空间一致性的对比学习策略,通过强制不同遍历中重叠区域的 BEV 特征具有一致表示,以半监督方式显著提升在线矢量化高精地图构建性能,在仅 5%-20% 标注数据下获得 13%-42% 的相对增益。

研究背景与动机

领域现状:在线高精地图构建已成为自动驾驶的重要方向,MapTR/MapTRv2 等方法基于 360° 视觉输入直接预测矢量化地图元素(车道线、道路边界等),摆脱了对离线高精地图的依赖。

现有痛点:(1) 这些基于学习的方法仍需要大量标注训练数据,而高精地图标注成本极高,需要专业传感器平台和部分人工标注;(2) 现有半监督方法(PseudoMapTrainer、Lilja et al.)依赖伪标签生成,需要额外的传感器数据处理流程;(3) 自动驾驶车辆会多次经过相同道路,这种天然的数据冗余尚未被充分利用。

核心矛盾:标注成本与数据需求之间的鸿沟——获取大量无标注驾驶数据容易,但标注它们极其昂贵。

本文目标:如何利用无标注的多次遍历数据提升在线高精地图构建模型的 BEV 特征表示质量。

切入角度:同一地理位置在不同遍历中应产生一致的 BEV 特征,这是一种天然的自监督信号。

核心 idea:将多次遍历中地理空间重叠区域的 BEV 特征一致性作为自监督目标,通过对比学习改善特征表示。

方法详解

整体框架

MapGCLR 是一个半监督训练框架,包含三个层次:(1) 地理空间多次遍历划分:分析数据集中轨迹的空间重叠关系,划分单次遍历(用于有监督)和多次遍历(用于自监督)数据集;(2) 地理空间对比学习:基于 SimCLR 框架,将重叠位置的 BEV 单元作为正样本对,非重叠位置作为负样本对;(3) 半监督训练:在每个 batch 中混合 \(n\) 个有标注样本和 \(2m\) 个无标注样本对,分别计算有监督损失和对比损失。

关键设计

  1. 地理空间多次遍历划分:

    • 功能:系统性分析数据集中轨迹的空间重叠关系,为对比学习提供正样本对
    • 核心思路:将所有位姿转换到全局参考系,为每个位姿计算基于车辆朝向的感知范围包围盒(横向 \(\pm x\) 米、纵向 \(\pm y\) 米),将同一轨迹的所有包围盒合并为多边形。若两条轨迹的多边形相交则标记为多次遍历
    • 空间图构建:构建空间图 \(G=(V,E)\),节点为车辆位姿,边连接满足 IoU 在 \([\text{IoU}_{min}, \text{IoU}_{max}]\) 范围内的位姿对,确保重叠区域既充分相关又不完全相同
    • 设计动机:仅两条轨迹互相交叉的情况提供的多样性有限,因此被归为单次遍历,保证自监督数据质量
  2. BEV 单元级对比学习:

    • 功能:在 BEV 特征网格的单元级别强制地理空间一致性
    • 正样本定义:参考位姿 \(R\) 和邻接位姿 \(A\) 的 BEV 网格经全局坐标系对齐后,对应相同地理位置的 BEV 单元 \((c_a, c_p)\) 构成正样本对
    • 负样本定义:不共享空间对应关系的 BEV 单元作为负样本
    • 采样策略:从参考 BEV 网格的重叠区域随机采样锚点,通过最近邻搜索在邻接 BEV 网格中找到对应正样本;负样本从两个网格中随机采样(排除锚点和正样本)
    • 损失函数:使用 InfoNCE 损失 \(\mathcal{L}_{GCLR} = -\log \frac{\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_i^+)/\tau)}{\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_i^+)/\tau) + \sum_{k=1}^{K}\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_k^-)/\tau)}\)
    • 投影头:遵循 SimCLR 范式,使用投影头 \(h\) 将 BEV 单元特征 \(\mathbf{f}\) 映射到独立空间 \(\mathbf{z} \in \mathcal{Z}\),解耦学习域和应用域
    • 设计动机:与基于图像增强的传统对比学习不同,多次遍历提供了天然的"增强"——同一地点的不同视角和条件下的观测
  3. 半监督训练机制:

    • 功能:统一有标注和无标注数据的训练流程
    • Batch 组成:每个 batch 包含 \(n\) 个有标注样本 + \(2m\) 个无标注样本(\(m\) 个参考-邻接对)
    • 共享编码器:所有样本通过相同的 MapTRv2 编码器(ResNet-50 骨干 + lifting 模块)提取 BEV 特征
    • 分流处理:有标注样本 → MapTRv2 解码器 → \(\mathcal{L}_{sup}\);无标注样本对 → 对比学习 → \(\mathcal{L}_{GCLR}\)
    • 总损失:\(\mathcal{L}_{semi} = \lambda_{sup} \mathcal{L}_{sup} + \lambda_{GCLR} \mathcal{L}_{GCLR}\)

损失函数 / 训练策略

  • \(\mathcal{L}_{sup}\):MapTRv2 原始损失,在有标注数据上计算
  • \(\mathcal{L}_{GCLR}\):地理空间对比损失,在无标注多次遍历数据上计算
  • 权重因子 \(\lambda_{sup}\)\(\lambda_{GCLR}\) 同时负责量级归一化和相对影响控制
  • 采用 MapTRv2 架构作为基座,第一阶段不依赖历史预测(单次推理架构)

实验关键数据

主实验 (Argoverse 2 数据集)

标注数据比例 是否SSL AP_dsh AP_sol AP_bou AP_cen AP_ped mAP 绝对增益 相对增益
2.5% 4.3 5.0 9.6 11.9 1.5 6.5 - -
2.5% 5.2 6.7 12.2 17.0 1.6 8.5 +2.0 +31%
5% 10.3 9.5 20.5 19.1 7.3 13.3 - -
5% 15.4 18.7 24.8 25.4 9.9 18.9 +5.6 +42%
10% 17.6 20.9 31.9 27.1 12.4 22.0 - -
10% 20.8 30.5 34.5 32.4 18.2 27.3 +5.3 +24%
20% 27.2 32.1 38.9 34.7 22.3 31.0 - -
20% 31.2 38.8 39.9 37.5 26.9 34.9 +3.9 +13%

消融 / 趋势分析

标注数据比例 (纯监督) mAP 等效SSL比例
5% (supervised) 13.3 -
5% + SSL 18.9 ≈ 10% supervised (22.0)
10% (supervised) 22.0 -
10% + SSL 27.3 ≈ 20% supervised (31.0)
30% (supervised) 36.6 参考上界
40% (supervised) 39.8 参考上界

关键发现

  • 标注数据越少,半监督增益越大:5% 标注时相对增益高达 42%,几乎等同于将标注量翻倍
  • SSL 在所有类别上均有提升,其中 solid 线和 centerline 类别受益最大
  • PCA 可视化表明 SSL 训练后的 BEV 特征空间在道路边界附近展现更强的分离度和对比度
  • 消除了 baseline 中出现的位置固定伪特征簇(违反地理空间一致性的伪影)

亮点与洞察

  • 优雅的自监督信号:多次遍历中"同一地点应有相同特征"这一约束是天然的监督信号,无需任何额外标注
  • 实用性强:自动驾驶车辆天然会多次经过同一路段,数据采集成本为零
  • 方法通用性:地理空间一致性约束原则上可应用于任何基于 BEV 的感知任务
  • 定量+定性双验证:PCA 可视化清晰展示了特征空间质量的提升,增强了定量结果的可信度

局限与展望

  • 仅在单次推理架构 (MapTRv2) 上验证,未探索与基于时序记忆的方法(如 MapTracker)的兼容性
  • 数据集要求存在多次遍历,对缺乏重复轨迹的数据集适用性有限
  • 对比学习的超参数(温度 \(\tau\)、IoU 范围、采样数量)的敏感度分析不够充分
  • 未探索其他自监督目标(如 BYOL、DINO)的替代方案

相关工作与启发

  • SimCLR (Chen et al., 2020):提供了对比学习框架和投影头设计的理论基础
  • MapTRv2 (Liao et al., 2023):作为基座模型,其编码器-解码器架构适合半监督扩展
  • HRMapNet:同样利用多次遍历信息,但直接存储 BEV 特征/光栅化折线到全局地图,增加了推理复杂度
  • 启发:地理空间一致性这一约束可扩展到 3D 检测、语义分割等其他 BEV 感知任务的半监督学习

评分 (⭐星级)

维度 评分
创新性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐
实验充分性 ⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
实用价值 ⭐⭐⭐⭐
综合 ⭐⭐⭐⭐
---
description: "MapGCLR:通过地理空间对比学习增强BEV特征表示,在半监督设定下以少量标注数据实现在线向量化高精地图构建13%-42%的相对性能提升"
tags:
- CVPR 2026
- 自动驾驶
- 高精地图
- 对比学习
- 半监督学习
- BEV
---

MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction

会议: CVPR 2026
arXiv: 2603.10688
代码: 无
领域: 自动驾驶 / 高精地图构建
关键词: 地理空间对比学习, 在线HD地图, 半监督学习, BEV特征, 多遍历

一句话总结

提出 MapGCLR,通过强制地理空间重叠区域的 BEV 特征一致性进行对比学习,在半监督框架下利用少量标注数据和大量无标注多遍历数据,在在线向量化高精地图构建任务上实现 13%-42% 的相对性能提升。

研究背景与动机

领域现状:在线高精地图构建已成为自动驾驶中替代离线 HD 地图的可扩展方案。MapTR、MapTRv2、MapTracker 等方法通过 360° 视觉输入实时预测向量化地图元素(车道线、路边界等),但这些监督学习方法仍依赖大量标注数据。

现有痛点:(1) 高精地图标注极其昂贵,需要专业传感器和人工标注;(2) 现有半监督方法(PseudoMapTrainer、Lilja等)依赖伪标签,主要用于语义分割范式而非向量化预测;(3) 现有方法未充分利用多遍历数据中蕴含的地理空间一致性信息。

核心矛盾:标注数据是在线 HD 地图构建的主要瓶颈,而自动驾驶车辆日常行驶中会多次经过相同路段产生大量无标注数据——如何利用这些免费的多遍历数据?

本文目标:在有限标注数据条件下,利用无标注多遍历数据中的地理空间一致性提升 BEV 特征表示质量,从而提升在线向量化 HD 地图构建性能。

切入角度:将不同遍历中地理空间重叠区域的 BEV 网格单元视为"自然增强",通过对比学习强制这些对应单元的特征一致性。

核心 idea:同一地点不同次经过的 BEV 特征应该相似——用这个约束做对比学习。

方法详解

整体框架

半监督训练流水线包含两个数据流:(1) 监督分支:少量标注数据通过 MapTRv2 编码器-解码器完整流程,计算监督损失 \(\mathcal{L}_{sup}\);(2) 自监督分支:大量无标注多遍历数据仅通过编码器生成 BEV 特征网格,利用地理空间对比损失 \(\mathcal{L}_{GCLR}\) 训练。批次中包含 \(n\) 个监督样本和 \(2m\) 个自监督样本(\(m\) 个参考-邻接对)。

关键设计

  1. 地理空间多遍历分析与数据划分:提出系统化的数据集分析方法,将所有位姿转换到全局参考系并按城市划分区域。对每个遍历,根据车辆朝向和感知范围(\(\pm x\) 横向、\(\pm y\) 纵向)计算每个位姿的包围盒,合并为多边形。若该多边形与其他遍历多边形相交,则分类为"多遍历",否则为"单遍历"(例外:仅两条轨迹互相交叉的也归为单遍历,因为多样性不足)。进一步构建空间图 \(G=(V,E)\),以位姿为顶点、以感知网格 IoU 在 \([\text{IoU}_{min}, \text{IoU}_{max}]\) 范围内的位姿对为边,确保重叠区域既充分相关又非完全相同。

  2. 地理空间对比学习:基于 SimCLR 框架,但用地理空间对应替代图像增强。给定参考位姿 \(R\) 和邻接位姿 \(A\) 的 BEV 网格 \(B_{SSL,R}\)\(B_{SSL,A}\),将它们变换到全局坐标系。正样本:在参考网格中随机采样重叠区域内的 BEV 单元 \(c_a\) 作为锚点,在邻接网格中通过最近邻搜索找到对应相同地理位置的单元 \(c_p\)负样本:从两个网格中随机采样排除锚点和正样本的单元。使用投影头 \(h\) 将 BEV 单元特征 \(\mathbf{f}\) 映射到对比空间 \(\mathbf{z} \in \mathcal{Z}\),解耦学习域与应用域。

  3. InfoNCE 对比损失\(\mathcal{L}_{GCLR} = -\log \frac{\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_i^+) / \tau)}{\exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_i^+) / \tau) + \sum_{k=1}^K \exp(\text{sim}(\mathbf{z}_i, \mathbf{z}_k^-) / \tau)}\),其中 \(\text{sim}(\cdot, \cdot)\) 为余弦相似度,\(\tau\) 为温度参数。鼓励同一地理空间位置跨遍历的 BEV 单元嵌入相近,不同位置的嵌入远离。

损失函数 / 训练策略

总损失为监督损失和对比损失的加权组合:\(\mathcal{L}_{semi} = \lambda_{sup} \mathcal{L}_{sup} + \lambda_{GCLR} \mathcal{L}_{GCLR}\)。权重因子同时起到归一化和控制相对影响力的作用。架构基于 MapTRv2,使用 ResNet-50 骨干提取图像特征并变换为 BEV 表示,解码器使用 Transformer 预测多段线形式的地图元素。单阶段训练,标注和无标注数据在同一批次中混合处理。

实验关键数据

主实验

监督数据比例 SSL AP_dsh AP_sol AP_bou AP_cen AP_ped mAP 绝对提升 相对提升
2.5% 4.3 5.0 9.6 11.9 1.5 6.5
2.5% 5.2 6.7 12.2 17.0 1.6 8.5 +2.0 +31%
5% 10.3 9.5 20.5 19.1 7.3 13.3
5% 15.4 18.7 24.8 25.4 9.9 18.9 +5.6 +42%
10% 17.6 20.9 31.9 27.1 12.4 22.0
10% 20.8 30.5 34.5 32.4 18.2 27.3 +5.3 +24%
20% 27.2 32.1 38.9 34.7 22.3 31.0
20% 31.2 38.8 39.9 37.5 26.9 34.9 +3.9 +13%

Argoverse 2 数据集,所有标注比例下 SSL 均带来一致提升。标注越少收益越大:5%时相对提升42%,几乎等于将标注量翻倍。

消融实验 / 扩展分析

仅监督数据比例 mAP
2.5% 6.5
5% 13.3
5% + SSL 18.9
10% 22.0
10% + SSL 27.3
20% 31.0
30% 36.6
40% 39.8

5% + SSL (18.9) 接近 10% 纯监督 (22.0),10% + SSL (27.3) 接近 20% 纯监督 (31.0)。SSL 的效果约等于将标注数据量翻倍。

关键发现

  • 定性 PCA 可视化显示,半监督方法的 BEV 特征空间语义分离更清晰,特别是道路边界和自车道的区分
  • 纯监督基线在 BEV 网格固定位置出现异常特征簇(与地理空间无关),地理空间对比学习完全消除了这一伪影
  • Argoverse 2 中大部分遍历具有多次重叠(从直方图上看),天然适合该方法
  • 标注比例越低,相对提升越大(42% at 5% → 13% at 20%),证明方法在数据稀缺场景特别有价值

亮点与洞察

  • 自然增强的发现:将多遍历的地理空间重叠视为"天然数据增强"是核心洞察——不需要人工设计增强策略,真实世界的多次驾驶本身就是最好的增强
  • 简洁有效:整个方法基于 SimCLR 对比学习的简单扩展,不引入复杂模块,但效果显著
  • 数据集分析工具:多遍历分析和空间图构建方法本身就是一个有价值的工具,可用于任何基于多遍历的自动驾驶研究
  • 与向量化方法兼容:相比现有半监督方法仅适用于语义分割范式,MapGCLR 首次在向量化地图构建上实现半监督学习

局限与展望

  • 当前仅在 MapTRv2 单帧架构上验证,未集成到带时序记忆的 MapTracker/StreamMapNet 等更强基线
  • 未探索多阶段训练(先自监督预训练再微调)与当前单阶段训练的对比
  • 投影头的设计较为简单(单层),更复杂的投影结构可能进一步提升效果
  • 数据集要求多遍历覆盖,在新开发区域或低频行驶路段可能缺乏重叠数据
  • 未考虑同一位置不同时间下的动态变化(如施工、季节变化)对特征一致性的影响

相关工作与启发

  • SimCLR:经典对比学习框架,MapGCLR 将"增强"从图像变换扩展到地理空间重叠
  • MapTRv2:向量化 HD 地图构建的标准方法,本文在其基础上添加 SSL 分支
  • HRMapNet / RTMap:利用多遍历做全局地图先验,但在模型推理时引入额外复杂度;MapGCLR 仅在训练时利用多遍历
  • 启发:地理空间对比学习的思路可推广到 3D 检测、占据预测等其他 BEV 任务——同一位置多次观测的特征应一致

评分

  • 新颖性: ⭐⭐⭐⭐ 地理空间对比学习是简洁而有效的新思路
  • 技术深度: ⭐⭐⭐ 方法相对简单,主要贡献在问题定义和系统设计
  • 实验充分度: ⭐⭐⭐⭐ 多个标注比例的系统实验 + PCA 定性分析
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表准确
  • 实用价值: ⭐⭐⭐⭐⭐ 直接解决 HD 地图标注成本过高的工业痛点

相关论文