跳转至

Unlocking Generalization Power in LiDAR Point Cloud Registration

会议: CVPR 2025
arXiv: 2503.10149
代码: GitHub
领域: autonomous_driving
关键词: 点云配准, 跨距离泛化, 跨数据集泛化, 自注意力, BEV特征

一句话总结

提出 UGP 框架,通过消除交叉注意力、引入渐进式自注意力和 BEV 特征融合,显著提升 LiDAR 点云配准在跨距离和跨数据集场景下的泛化能力。

研究背景与动机

LiDAR 点云配准是自动驾驶和 SLAM 的核心任务。现实场景中,点云对之间存在两大变化:(1) 跨距离变化——不同速度或时间采集的点云距离差异导致重叠率和密度分布变化;(2) 跨数据集变化——不同环境或 LiDAR 类型(如 32 线 vs 64 线)导致数据特征差异。

现有 SOTA 方法(CoFiNet、GeoTransformer、PARE)大量使用交叉注意力(cross-attention)建模两帧间几何一致性,但这依赖一个隐式假设:同一结构在两帧中有一致的表示。在跨距离/跨数据集场景下,LiDAR 点云的不均匀密度分布使得该假设不成立,导致严重的泛化性能下降。

核心发现: 在 KITTI@10m 训练、KITTI@20m 测试时,GeoTransformer 的交叉注意力倾向于匹配密度相似(但位置错误)的结构,而非真正对应的点对。消除交叉注意力后,匹配焦点重新回到正确区域附近。

实验证据:CoFiNet 在 KITTI@40m 上 RR 仅 1.4%,GeoTrans 仅 2.2%,PARE 为 0%。

方法详解

整体框架

UGP 采用粗到细策略:(1) 将点云投影为 BEV 图像;(2) Point-Encoder(KPConv)和 BEV-Encoder(ResNet)分别提取点特征和图像特征;(3) 根据索引关系融合超点与 BEV 特征;(4) 仅使用渐进式自注意力(无交叉注意力)提取超点特征进行粗匹配;(5) 细匹配和 LGR 恢复刚性变换。

关键设计1: 消除交叉注意力

功能: 解锁网络的跨距离和跨数据集泛化能力。

核心思路: 完全去除两帧间的交叉注意力模块,仅保留帧内自注意力。每帧独立提取特征,超点匹配基于特征相似性而非显式的跨帧交互。注意力公式 \(e_{i,j} = \frac{(\mathbf{x}_i W^Q)(\mathbf{x}_j W^K + \mathbf{r}_{i,j} W^R)^T}{\sqrt{d_t}}\) 仅在同一帧的超点间计算。

设计动机: 交叉注意力的核心缺陷在于——LiDAR 点云的密度随距离递减,不同距离的同一结构在两帧中密度表示差异极大。交叉注意力会被密度相似但语义不同的区域误导。消除后,网络聚焦于学习帧内稳定的特征表示,这种表示对距离/数据集变化更具不变性。消除实验(Fig.2(d))直接验证了此效果。

关键设计2: 渐进式自注意力

功能: 减少大规模场景中的特征歧义,捕捉多尺度空间结构。

核心思路: 在初始层限制自注意力范围为局部邻域,后续层逐步扩大注意力范围。每层设定不同的注意力半径 \(r_l\),使超点在第 \(l\) 层只与半径 \(r_l\) 内的超点交互。\(r_l\) 从小到大递增,形成由局部到全局的注意力级联。

设计动机: 标准全局自注意力让每个点与所有其他点等权交互,远距离无关点引入特征歧义。渐进式设计让模型先学习精细的局部几何信息,再逐步整合全局上下文,形成更鲁棒和一致的多尺度表示。

关键设计3: BEV 特征融合

功能: 引入场景元素级语义信息(道路、拐角等),降低场景歧义。

核心思路: 将 3D 点云投影到鸟瞰图(BEV),像素坐标为 \(u_i = \lfloor \frac{x_i - x_{\min}}{x_{\max} - x_{\min}} \cdot H \rfloor\),填充值为 1。BEV-Encoder(多层 ResNet + 2D 最大池化)提取 patch 特征。根据超点到 BEV patch 的索引关系,将 3D 几何特征与 2D 纹理特征拼接融合。

设计动机: KPConv 等纯点云骨干难以建立局部几何与全局背景的关联。BEV 提供了点云的全局视图,包含清晰的边缘和纹理特征(如道路轮廓),这些语义信息对于减少场景歧义、提高特征一致性至关重要。

损失函数

遵循 GeoTransformer 的损失设计,包含超点匹配损失和细匹配损失,未引入额外损失项。

实验关键数据

跨距离泛化 (KITTI, 训练@10m)

方法 @10m RR @20m RR @30m RR @40m RR mRR
CoFiNet 99.8 82.9 14.6 1.4 49.7
GeoTrans 99.8 7.5 3.2 2.2 28.2
BUFFER 99.8 98.6 93.5 61.2 88.3
PARE 99.8 1.8 0.0 0.0 25.4
UGP 99.8 99.3 96.8 82.0 94.5

跨距离泛化 (nuScenes, 训练@10m)

方法 @10m RR @40m RR mRR
BUFFER
UGP 72.3 91.4

关键发现

  1. 跨距离泛化巨大优势: 在 KITTI@40m 上,UGP 达 82.0% RR,超 BUFFER 20.8 个百分点(+34%),超 CoFiNet 80.6 个百分点。mRR 94.5% 创下新 SOTA。
  2. 交叉注意力消除的直接证据: GeoTrans w/o C (无交叉注意力) mRR 从 28.2%→87.7%,CoFiNet w/o C 从 49.7%→58.8%,仅消除交叉注意力就能大幅提升泛化。
  3. 跨数据集泛化: nuScenes→KITTI 平均 RR 达 90.9%,超 BUFFER 6.2 个百分点。
  4. BEV 特征有效: 相比纯点云方法,BEV 融合提供的语义信息进一步减少场景歧义。

亮点与洞察

  • 反直觉但有效: "去掉交叉注意力"看似丧失跨帧信息交互能力,实际上解锁了泛化潜力。这揭示了 Transformer 在点云配准中被过度依赖的交叉注意力反而是泛化瓶颈。
  • 问题分析深入: 从 LiDAR 密度分布的角度揭示交叉注意力失效根因,有理有据。
  • 简单有效: 核心创新是"减法设计"(去除交叉注意力),辅以渐进自注意力和 BEV 融合,无复杂新模块。

局限与展望

  • 无交叉注意力的信息缺失: 在密度一致、高重叠率的同距离配准场景中,UGP 可能略逊于有交叉注意力的方法。
  • BEV 投影假设: 假设地面近似平坦,对复杂地形(如山区道路)BEV 投影可能失真。
  • 未探索动态对象: 场景中的移动物体对配准的影响未讨论。
  • 未来可结合自适应选择是否使用交叉注意力、扩展到多 LiDAR 传感器融合。

相关工作与启发

  • GeoTransformer: 引入几何结构嵌入的 cross-attention 配准方法,UGP 证明其交叉注意力是泛化瓶颈。
  • BUFFER: 使用 patch-wise 特征提取的方法,对噪声和遮挡更鲁棒,但泛化仍不足。
  • 启发: 在依赖跨实例交互的任务中,消除交叉交互可能是提升泛化性的通用策略。

评分

⭐⭐⭐⭐ — 核心洞察深刻(交叉注意力限制泛化),实验效果震撼(mRR 94.5%),分析充分。"减法设计"的简洁性体现了对问题的深入理解。对自动驾驶安全有直接意义。

相关论文