VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation¶

会议: CVPR2025
arXiv: 2603.12918
代码: 待确认
领域: autonomous_driving
关键词: cross-view pose estimation, geo-localization, view-invariant representation, polar transformation, positional attention

一句话总结¶

VIRD 通过双轴变换（极坐标变换 + 上下文增强位置注意力）构建视角不变表征，实现无需方向先验的全向跨视角位姿估计，在 KITTI 上位置和方向误差分别降低 50.7% 和 76.5%。

研究背景与动机¶

全局定位对自动驾驶和机器人至关重要，但 GNSS 在密集城区因信号遮挡和多径效应可靠性下降
跨视角位姿估计（CVPE）通过地面图像与卫星图像匹配实现精细 3-DoF 定位，是 GNSS 的有前途替代方案
早期 CVPE 方法依赖粗糙方向先验，在实际中常不准确或不可用
现有全向 CVPE 方法忽略地面与卫星视角间的巨大视角鸿沟，仅靠语义相似性不足以建立空间对应
极坐标变换解决了水平方向对齐但忽略垂直轴错位；投影变换对相机标定敏感且在建筑物等垂直结构处产生严重伪影
有效解决垂直轴错位仍是开放挑战

方法详解¶

整体框架¶

VIRD 构建视角不变描述子用于全向跨视角位姿估计。流程包括：(1) 双轴变换构建描述子；(2) 视角重建损失增强视角不变性；(3) 描述子匹配 + 残差回归预测最终位姿。

关键设计¶

1. 双轴变换（Dual-Axis Transformation）

水平轴 — 极坐标变换： - 将卫星特征图 \(F_s\) 以候选位置为中心进行极坐标变换 - 方位角映射到水平轴，径向距离映射到垂直轴 - 变换后宽度 \(W_s = \frac{2\pi}{\text{HFoV}} \cdot W_g\)，确保 FoV 一致性

垂直轴 — 位置注意力（PA）： - 定义三个位置编码：共享虚拟 \(P_a \in \mathbb{R}^{H_Q \times d_p}\)、地面 \(P_g\)、卫星 \(P_{s2p}\) - 注意力权重 \(\mathcal{A}_v = \text{Softmax}\left(\frac{(P_a W_v^Q)(P_v W_v^K)^\top}{\sqrt{d_k}}\right)\) - 通过共享虚拟垂直轴建立跨视角一致的垂直对应

上下文增强位置注意力（CEPA）： - 标准 PA 假设所有水平方向的垂直变换相同，缺乏对垂直结构的自适应性 - CEPA 用地面特征上下文精化注意力：\(\mathcal{A}_{g'} = \mathcal{A}_g + \text{Softmax}(\Phi(\mathcal{A}_g \oplus F_g))\) - 使得模型能根据场景上下文自适应地变换不同水平方向的地面特征

2. 视角重建损失（View-Reconstruction Loss） - 训练描述子同时能重建原始视角和跨视角图像 - 四个解码器：\(G_{g \to g}\), \(G_{s \to s}\), \(G_{s \to g}\), \(G_{g \to s}\) - 原视角重建 \(\mathcal{L}_{\text{origin}}\) + 跨视角重建 \(\mathcal{L}_{\text{cross}}\) - 引导描述子编码垂直结构信息，解决视觉相似道路场景的歧义

3. 匹配与回归 - 描述子匹配：候选位姿网格上计算余弦相似度，InfoNCE 损失训练 - 位姿回归：从粗匹配位姿预测残差 \(\Delta \mathbf{p} = (\Delta x, \Delta y, \Delta \theta)\)

损失函数¶

\(\mathcal{L} = \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{match}} + \mathcal{L}_{\text{reg}}\)

实验关键数据¶

KITTI 数据集（无方向先验，Same-Area）¶

方法	Backbone	Med. Pos.(m)↓	Med. Ori.(°)↓	R@1m Lat.↑
SliceMatch	VGG16	5.41	4.42	39.73%
CCVPE	EffNet-B0	3.47	6.12	53.30%
DenseFlow	ResNet18	4.26	0.99	73.87%
VIRD	VGG16	2.07	1.02	79.46%

VIGOR 数据集（Same-Area, Unaligned）¶

方法	Med. Pos.(m)↓	Med. Ori.(°)↓
SliceMatch	5.77	67.37
CCVPE	4.56	75.86
VIRD	3.74	2.15

关键发现¶

中位位置误差在 KITTI 上从 4.26m 降至 2.07m（降低 50.7%），方向误差从 4.42° 降至 1.02°（降低 76.5%）
Cross-Area 泛化性同样显著优于现有方法
视角重建损失对垂直结构信息的编码贡献显著
CEPA 相比标准 PA 在复杂城市场景下提升更大

亮点与洞察¶

双轴变换创新：首次显式地从水平和垂直两个轴分别解决跨视角鸿沟，通过共享虚拟轴建立一致对应
CEPA 自适应性：通过地面上下文动态调整垂直注意力权重，捕获建筑物等垂直结构的方向变化
无需相机参数：位置注意力学习垂直变换而不依赖相机内外参，避免了投影变换的标定敏感性问题
视角重建正则化：通过重建任务增强描述子的视角不变性，是一种优雅的自监督信号

局限性¶

极坐标变换假设地面近似平坦，在地形起伏大的区域可能失效
仅验证了 KITTI 和 VIGOR 两个数据集，未测试卫星图像分辨率或年代差异更大的场景
视角重建需要额外解码器增加训练开销，推理时虽不使用但增加了模型复杂度
假设 pitch/roll 可忽略，在实际机器人（尤其坡道场景）中可能不成立

评分¶

新颖性: ⭐⭐⭐⭐ (双轴变换+CEPA+视角重建)
实验充分度: ⭐⭐⭐⭐ (两个数据集，Same/Cross-Area，多 backbone)
写作质量: ⭐⭐⭐⭐⭐ (图示清晰，问题分析透彻)
价值: ⭐⭐⭐⭐ (显著推进无先验跨视角定位 SOTA)