跳转至

VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation

会议: CVPR2025
arXiv: 2603.12918
代码: 待确认
领域: autonomous_driving
关键词: cross-view pose estimation, geo-localization, view-invariant representation, polar transformation, positional attention

一句话总结

VIRD 通过双轴变换(极坐标变换 + 上下文增强位置注意力)构建视角不变表征,实现无需方向先验的全向跨视角位姿估计,在 KITTI 上位置和方向误差分别降低 50.7% 和 76.5%。

研究背景与动机

  1. 全局定位对自动驾驶和机器人至关重要,但 GNSS 在密集城区因信号遮挡和多径效应可靠性下降
  2. 跨视角位姿估计(CVPE)通过地面图像与卫星图像匹配实现精细 3-DoF 定位,是 GNSS 的有前途替代方案
  3. 早期 CVPE 方法依赖粗糙方向先验,在实际中常不准确或不可用
  4. 现有全向 CVPE 方法忽略地面与卫星视角间的巨大视角鸿沟,仅靠语义相似性不足以建立空间对应
  5. 极坐标变换解决了水平方向对齐但忽略垂直轴错位;投影变换对相机标定敏感且在建筑物等垂直结构处产生严重伪影
  6. 有效解决垂直轴错位仍是开放挑战

方法详解

整体框架

VIRD 构建视角不变描述子用于全向跨视角位姿估计。流程包括:(1) 双轴变换构建描述子;(2) 视角重建损失增强视角不变性;(3) 描述子匹配 + 残差回归预测最终位姿。

关键设计

1. 双轴变换(Dual-Axis Transformation)

水平轴 — 极坐标变换: - 将卫星特征图 \(F_s\) 以候选位置为中心进行极坐标变换 - 方位角映射到水平轴,径向距离映射到垂直轴 - 变换后宽度 \(W_s = \frac{2\pi}{\text{HFoV}} \cdot W_g\),确保 FoV 一致性

垂直轴 — 位置注意力(PA): - 定义三个位置编码:共享虚拟 \(P_a \in \mathbb{R}^{H_Q \times d_p}\)、地面 \(P_g\)、卫星 \(P_{s2p}\) - 注意力权重 \(\mathcal{A}_v = \text{Softmax}\left(\frac{(P_a W_v^Q)(P_v W_v^K)^\top}{\sqrt{d_k}}\right)\) - 通过共享虚拟垂直轴建立跨视角一致的垂直对应

上下文增强位置注意力(CEPA): - 标准 PA 假设所有水平方向的垂直变换相同,缺乏对垂直结构的自适应性 - CEPA 用地面特征上下文精化注意力:\(\mathcal{A}_{g'} = \mathcal{A}_g + \text{Softmax}(\Phi(\mathcal{A}_g \oplus F_g))\) - 使得模型能根据场景上下文自适应地变换不同水平方向的地面特征

2. 视角重建损失(View-Reconstruction Loss) - 训练描述子同时能重建原始视角和跨视角图像 - 四个解码器:\(G_{g \to g}\), \(G_{s \to s}\), \(G_{s \to g}\), \(G_{g \to s}\) - 原视角重建 \(\mathcal{L}_{\text{origin}}\) + 跨视角重建 \(\mathcal{L}_{\text{cross}}\) - 引导描述子编码垂直结构信息,解决视觉相似道路场景的歧义

3. 匹配与回归 - 描述子匹配:候选位姿网格上计算余弦相似度,InfoNCE 损失训练 - 位姿回归:从粗匹配位姿预测残差 \(\Delta \mathbf{p} = (\Delta x, \Delta y, \Delta \theta)\)

损失函数

\(\mathcal{L} = \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{match}} + \mathcal{L}_{\text{reg}}\)

实验关键数据

KITTI 数据集(无方向先验,Same-Area)

方法 Backbone Med. Pos.(m)↓ Med. Ori.(°)↓ R@1m Lat.↑
SliceMatch VGG16 5.41 4.42 39.73%
CCVPE EffNet-B0 3.47 6.12 53.30%
DenseFlow ResNet18 4.26 0.99 73.87%
VIRD VGG16 2.07 1.02 79.46%

VIGOR 数据集(Same-Area, Unaligned)

方法 Med. Pos.(m)↓ Med. Ori.(°)↓
SliceMatch 5.77 67.37
CCVPE 4.56 75.86
VIRD 3.74 2.15

关键发现

  • 中位位置误差在 KITTI 上从 4.26m 降至 2.07m(降低 50.7%),方向误差从 4.42° 降至 1.02°(降低 76.5%)
  • Cross-Area 泛化性同样显著优于现有方法
  • 视角重建损失对垂直结构信息的编码贡献显著
  • CEPA 相比标准 PA 在复杂城市场景下提升更大

亮点与洞察

  1. 双轴变换创新:首次显式地从水平和垂直两个轴分别解决跨视角鸿沟,通过共享虚拟轴建立一致对应
  2. CEPA 自适应性:通过地面上下文动态调整垂直注意力权重,捕获建筑物等垂直结构的方向变化
  3. 无需相机参数:位置注意力学习垂直变换而不依赖相机内外参,避免了投影变换的标定敏感性问题
  4. 视角重建正则化:通过重建任务增强描述子的视角不变性,是一种优雅的自监督信号

局限性

  1. 极坐标变换假设地面近似平坦,在地形起伏大的区域可能失效
  2. 仅验证了 KITTI 和 VIGOR 两个数据集,未测试卫星图像分辨率或年代差异更大的场景
  3. 视角重建需要额外解码器增加训练开销,推理时虽不使用但增加了模型复杂度
  4. 假设 pitch/roll 可忽略,在实际机器人(尤其坡道场景)中可能不成立

相关工作与启发

  • 极坐标变换来自 Shi & Li 系列工作,VIRD 补充了垂直轴的解决方案
  • CEPA 可推广到其他需要跨域垂直对齐的任务(如遥感-地面匹配、楼层定位)
  • 视角重建损失的思路可启发其他跨视角/跨模态匹配任务的正则化设计
  • 与 LiDAR-based 定位互补,适合仅有单目相机的场景

评分

  • 新颖性: ⭐⭐⭐⭐ (双轴变换+CEPA+视角重建)
  • 实验充分度: ⭐⭐⭐⭐ (两个数据集,Same/Cross-Area,多 backbone)
  • 写作质量: ⭐⭐⭐⭐⭐ (图示清晰,问题分析透彻)
  • 价值: ⭐⭐⭐⭐ (显著推进无先验跨视角定位 SOTA)