VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation¶

会议: CVPR2026
arXiv: 2603.12918
代码: 待确认
领域: autonomous_driving
关键词: cross-view pose estimation, view-invariant representation, polar transformation, positional attention, autonomous driving localization

一句话总结¶

提出 VIRD，通过双轴变换（极坐标变换 + 上下文增强位置注意力）构建视图不变表示，在无方向先验条件下实现 SOTA 的跨视角位姿估计，在 KITTI 上位置和方向误差分别降低 50.7% 和 76.5%。

研究背景与动机¶

全局定位是自动驾驶的关键需求：准确的全局定位对自动驾驶和移动机器人至关重要，是实现真实世界导航的基础能力。
GNSS 在城市场景中不可靠：在密集城市区域中，GNSS 信号因遮挡和多径效应严重退化，定位精度大幅下降。
跨视角位姿估计作为替代方案：利用地理参考的卫星图像估计地面相机的 3-DoF 位姿是有前景的替代方案，但地面视图与卫星视图之间存在巨大视角差异。
现有方法依赖方向先验：早期方法假设已知粗略方向，在窄搜索空间内迭代优化，但实际中方向先验常不准确或不可用，导致收敛到次优解。
语义方法忽略空间对应：近期全方向 CVPE 方法通过语义相似性（交叉注意力、对比学习）缩小视角差距，但忽略了空间对应关系，视角差距未根本解决。
几何变换方法各有缺陷：极坐标变换仅解决水平对齐忽略垂直轴，投影变换依赖相机参数且在垂直结构（如建筑物）周围产生严重伪影。

方法详解¶

整体框架¶

VIRD 是一个全方向跨视角位姿估计框架，通过双轴变换构建视图不变描述子。整体流程： 1. 特征提取：使用预训练 CNN（VGG16 / EfficientNet-B0）分别提取地面特征 $F_g \in \mathbb{R}^{C \times H \times W_g}$ 和卫星特征 $F_s \in \mathbb{R}^{C \times A \times A}$ 2. 水平轴对齐：对卫星特征施加极坐标变换，将方位角映射到水平轴 3. 垂直轴对齐：通过上下文增强位置注意力（CEPA）模块消除垂直轴不对齐 4. 描述子生成：沿垂直方向压缩后展平为方向感知的 1D 描述子 $D_g$ 和 $D_{s2p}$ 5. 粗匹配 + 精回归：通过余弦相似度匹配获得粗位姿，再通过回归模块预测残差精化

关键设计¶

极坐标变换（水平对齐）：以候选位置为中心对卫星特征图进行极坐标采样，将方位角和径向距离分别映射到水平和垂直轴。变换宽度 $W_s = \frac{2\pi}{\text{HFoV}} \cdot W_g$ 确保不同视场角下的一致性。

位置注意力（PA）：定义三组正弦位置编码——共享虚拟编码 $P_a$、地面编码 $P_g$、卫星编码 $P_{s2p}$，通过注意力机制学习垂直坐标间的映射关系： $$\mathcal{A}_v = \text{Softmax}\left(\frac{(P_a W_v^Q)(P_v W_v^K)^\top}{\sqrt{d_k}}\right)$$ 核心洞察是将位置注意力重解释为通过共享虚拟轴学习跨视图垂直坐标变换，无需相机参数。

上下文增强位置注意力（CEPA）：PA 假设所有水平方向的垂直变换一致，无法适应不同方向的垂直结构变化。CEPA 利用地面特征的局部上下文增强注意力权重： $$\mathcal{A}_{g'} = \mathcal{A}_g + \text{Softmax}\left(\Phi(\mathcal{A}_g \oplus F_g)\right)$$ 通过卷积层 $\Phi$ 处理拼接的注意力权重和特征，使模型自适应地根据场景上下文变换地面特征。

视图重建损失：训练每个描述子同时重建原始视图和交叉视图图像，包括原始重建损失 $\mathcal{L}_{\text{origin}}$ 和交叉重建损失 $\mathcal{L}_{\text{cross}}$，引导描述子编码垂直结构信息，提升视图不变性。

损失函数¶

总损失由三部分组成： $$\mathcal{L} = \mathcal{L}_{\text{recon}} + \mathcal{L}_{\text{match}} + \mathcal{L}_{\text{reg}}$$

$\mathcal{L}_{\text{recon}} = \alpha_1 \mathcal{L}_{\text{origin}} + \alpha_2 \mathcal{L}_{\text{cross}}$：视图重建损失（$\ell_1$-loss）
$\mathcal{L}_{\text{match}}$：InfoNCE 匹配损失，鼓励 GT 位姿处的高相似度
$\mathcal{L}_{\text{reg}}$：位姿残差的 $\ell_2$-loss

实验¶

主要结果¶

KITTI 数据集（无方向先验，跨区域设置，EfficientNet-B0）：

方法	位置均值(m)↓	位置中值(m)↓	方向均值(°)↓	方向中值(°)↓
HighlyAccurate	15.50	16.02	89.84	89.85
SliceMatch	14.85	11.85	23.64	7.96
CCVPE	13.94	10.98	77.84	63.84
FG2	13.58	11.72	90.12	90.42
VIRD (Ours)	11.12	5.41	22.03	1.87

VIGOR 数据集（无方向对齐，跨区域设置，EfficientNet-B0）：

方法	位置均值(m)↓	位置中值(m)↓	方向均值(°)↓	方向中值(°)↓
CCVPE	5.41	1.89	27.78	13.58
DenseFlow	7.67	3.67	17.63	2.94
FG2†	5.95	2.40	28.41	2.20
VIRD (Ours)	4.61	1.55	16.50	1.17

消融实验¶

双轴变换消融（KITTI 跨区域，VGG16）：

变换策略	位置中值(m)	方向中值(°)
投影变换 S2G	10.59	3.84
投影变换 G2S	15.20	5.44
仅极坐标	11.75	4.00
极坐标 + PA	9.76	3.44
极坐标 + CEPA	8.88	3.36

模型组件消融（KITTI 跨区域，VGG16）：

配置	位置中值(m)	方向中值(°)
Polar + CEPA	8.88	3.36
+ $\mathcal{L}_{\text{origin}}$	8.29	3.31
+ $\mathcal{L}_{\text{cross}}$	8.10	3.21
+ 两者	7.90	3.05
+ 两者 + 回归	7.05	2.22

关键发现¶

双轴变换显著优于所有单一几何变换基线，PA 和 CEPA 的逐步引入均带来一致提升
视图重建损失对方向估计贡献最大，均值方向误差降低 39.1%；交叉重建比原始重建更有效
回归模块将位置中值降低 0.85m、方向中值降低 0.83°，但方向均值略升（因反方向预测被精化得更远）
VIRD 在不同方向噪声水平（±10° 到 ±180°）下均保持低误差，鲁棒性显著优于 CCVPE 和 FG2

亮点¶

双轴变换策略设计精巧：将跨视角匹配的难题分解为水平（极坐标变换）和垂直（位置注意力）两个可处理的子问题，避免了投影变换对相机参数和深度信息的依赖
CEPA 模块直觉清晰有效：将位置注意力重新解释为通过共享虚拟轴的坐标变换，再通过上下文增强适应不同方向的垂直结构变化
视图重建损失设计巧妙：通过要求描述子重建原始和交叉视图来强制视图不变性，同时帮助模型聚焦于跨视图共享结构
无需方向先验：在全 360° 搜索空间下实现 SOTA，实际应用价值高

局限性¶

仅处理 3-DoF 位姿（x, y, yaw），假设 pitch 和 roll 可忽略，在复杂地形中可能不成立
在 VIGOR 有对齐方向的设置下，位置精度不如 FG2 等利用 3D 结构信息的方法
回归模块在粗匹配方向错误时可能放大误差（反方向问题）
仅在 KITTI 和 VIGOR 两个数据集上验证，泛化到更多城市场景和国家的能力未知
训练需要在每个候选位姿上进行极坐标变换，候选数量增大时计算开销可能较高

评分¶

新颖性: ⭐⭐⭐⭐ — 双轴变换策略和 CEPA 模块设计新颖，对位置注意力的重解释有启发性
实验充分度: ⭐⭐⭐⭐ — 两个主流数据集全面对比，消融完整，包括鲁棒性分析和可视化
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述充分，图示直观
价值: ⭐⭐⭐⭐ — 无方向先验下 SOTA，对实际自动驾驶定位有直接应用价值