Weakly-Supervised Camera Localization by Ground-to-Satellite Image Registration¶

会议: ECCV 2024
arXiv: 2409.06471
代码: https://github.com/YujiaoShi/G2SWeakly
领域: 遥感 / 跨视角相机定位
关键词: 弱监督定位, 地面-卫星图像配准, 自监督旋转估计, 对比学习, 跨视角特征匹配

一句话总结¶

提出首个弱监督的地面-卫星图像配准定位方法，通过卫星-卫星自监督训练旋转估计器、对比学习训练平移估计器，在无需精确GT姿态标签的条件下实现最佳跨区域泛化能力，超越大多数全监督SOTA方法。

研究背景与动机¶

领域现状：相机定位在自动驾驶、机器人和AR/VR等领域至关重要。卫星图像因其广泛可获取性和全球覆盖性，已成为一种廉价的参考数据源。近年来研究者已探索通过地面-卫星图像配准来精炼粗略位姿（来自GPS或图像检索），取得了显著进展。

核心问题：现有的学习方法（如CVR, SliceMatch, OrienterNet, Shi et al.）都依赖精确的GT位姿标签来训练网络。然而：

获取精确标签困难且昂贵：需要Real Time Kinematics (RTK)等专业设备进行实地测量，成本高、耗时长

RTK信号不可靠：受多径干扰、信号遮挡、大气条件等因素影响，即使昂贵的RTK GPS也可能产生误差

大规模数据集受限：精确标注的成本严重限制了训练数据的规模

目标：开发一种弱监督策略——在仅有噪声位姿标签（如来自消费级GPS）的条件下，通过地面-卫星图像配准提升相机定位精度。本文不假设任何区域有精确GT数据。

关键洞察：旋转和平移估计可以解耦处理——旋转估计可通过卫星图像自身构造带GT的训练对进行自监督训练；平移估计可通过对比学习利用正/负卫星图像的信号进行弱监督训练。

方法详解¶

整体框架¶

方法分两阶段：(1) 旋转估计——通过自监督训练的网络回归器估计地面与卫星图像的相对旋转；(2) 平移估计——利用空间相关性（相似度匹配）估计平移。两阶段的特征提取器独立训练，共同确定3-DoF位姿（2-DoF位置 + 1-DoF方向）。

关键设计¶

1. 自监督旋转估计器¶

功能：在无需地面图像标签的情况下训练一个网络回归器来估计地面-卫星图像间的相对旋转。

核心思路：利用Spatial Transformer Networks的思想，构造"卫星-卫星"图像对进行自监督训练。具体地，对一张卫星图像施加随机旋转 \(\mathbf{R}^*(\theta)\) 和平移 \(\mathbf{t}^*\)，并用三角形mask模拟地面相机的FoV，将变换后的图像作为query，原图作为reference，训练网络预测已知的相对位姿。

训练目标：

\[\mathcal{L}_1 = |\theta - \theta^*| + |t_x - t_x^*| + |t_y - t_y^*|\]

设计动机：卫星图像和针孔相机地面图像具有相似的投影几何——都将现实中的直线映射为图像中的直线。因此在卫星图像对上训练的特征提取器可以直接迁移到地面图像。利用地平面Homography将地面特征投影到俯视图，无需额外可训练参数，使得模型天然可跨域部署。

关键发现：神经网络对输入信号的旋转敏感（无需特殊设计即可估计旋转），但由于聚合层（如max-pooling）的存在，对微小平移不敏感。因此旋转用回归，平移用空间相关性的等变性。

2. 基于对比学习的弱监督平移估计¶

功能：在仅有噪声位置标签的条件下训练特征提取网络，使其能通过相似度匹配估计地面相机的精确位置。

核心思路：对每张地面图像，根据其粗略位置确定一张正样本卫星图像（覆盖相机所在区域）和若干负样本卫星图像（不覆盖），分别计算相似度图 \(\mathbf{S}_{\text{pos}}\) 和 \(\mathbf{S}_{\text{neg}}\)，通过对比学习最大化正图的最大相似度、最小化负图的最大相似度：

\[\mathcal{L}_2 = \sum_l \log(1 + e^{\alpha(\max \mathbf{S}_{\text{neg}} - \max \mathbf{S}_{\text{pos}})})\]

其中 \(\alpha=10\) 控制收敛速度。

可选补充损失（当有相对准确的噪声标签时，\(\lambda=1\)）：

\[\mathcal{L}_3 = \sum_l |\max(\mathbf{S}_{\text{pos}}) - \max(\mathbf{S}_{\text{pos}}[u^*\pm d/\gamma, v^*\pm d/\gamma])|\]

迫使全局最大值等于以标签位置为中心、半径 \(d=5\)m 区域内的局部最大值。

总训练目标：\(\mathcal{L} = \mathcal{L}_2 + \lambda \mathcal{L}_3\)，\(\lambda=0\) 为纯弱监督，\(\lambda=1\) 利用噪声标签。

3. 置信度引导的相似度匹配¶

功能：提取ground-view特征时同时预测置信度图，抑制动态物体特征、强调可靠特征。

核心思路：地面分支提取特征 \(\mathbf{F}_g\) 和置信度图 \(\mathbf{C}_g\)，将置信度加权后的特征 \(\hat{\mathbf{F}_g} = \mathbf{C}_g \mathbf{F}_g\) 作为滑动窗口，与卫星特征图 \(\mathbf{F}_s\) 计算归一化空间相关性：

\[\mathbf{S}(u,v) = \frac{\sum_i \sum_j \mathbf{F}_s(u+i, v+j) \hat{\mathbf{F}_g}(i,j)}{\sqrt{\sum_i \sum_j \mathbf{F}_s^2(u+i,v+j)} \sqrt{\sum_i \sum_j \hat{\mathbf{F}_g}^2(i,j)}}\]

设计动机：置信度图无显式监督，而是通过匹配训练目标隐式学习。可视化显示，学习到的置信度图能忽略动态物体（如车辆），高亮可靠的静态特征（如车道线、道路边缘）。仅对地面分支学习置信度，卫星分支不学习——因为卫星图像中动态物体少且占比小。

损失函数 / 训练策略¶

旋转阶段：\(\mathcal{L}_1\)（L1损失），用卫星-卫星对训练
平移阶段：\(\mathcal{L} = \mathcal{L}_2 + \lambda \mathcal{L}_3\)，冻结旋转估计器参数
网络架构：VGG16-UNet特征提取 + Swin Transformer回归器
训练配置：batch size 8，RTX 3090 GPU，KITTI 3 epochs / VIGOR 10 epochs
每个batch中1个正样本 + (B-1)个负样本
特征尺寸为原图的1/4（节省空间相关的内存消耗）

实验关键数据¶

主实验：KITTI数据集上的位姿估计¶

方法	监督	Test-2 Lat d=1↑	Test-2 Lat d=3↑	Test-2 Long d=1↑	Test-2 Long d=3↑	Test-2 θ=1↑	Test-2 θ=3↑
DSM	全监督	10.77	31.37	3.87	11.73	3.53	14.09
SliceMatch	全监督	32.43	78.98	8.30	24.48	46.82	46.82
Shi et al.	全监督	57.72	86.77	14.15	34.59	98.98	100.00
Xia et al.	全监督	44.06	81.72	23.08	52.85	57.72	92.34
Song et al.	全监督	54.19	-	23.10	-	43.44	-
Ours (λ=0)	弱监督	62.73	86.53	9.98	29.67	99.99	100.00
Ours (λ=1)	弱监督	64.74	86.18	11.81	34.77	99.99	100.00

本方法在跨区域(Test-2)评估中取得最佳横向定位和最佳旋转估计性能，且同区域/跨区域性能差距最小。

VIGOR数据集上的比较¶

方法	监督	Cross-area Aligned Mean↓	Cross-area Aligned Median↓	Cross-area Unknown Mean↓	Cross-area Unknown Median↓
MCC	全监督	9.05	5.14	12.66	9.55
SliceMatch	全监督	5.53	2.55	8.48	5.64
Xia et al.	全监督	4.97	1.68	5.41	1.89
Song et al.	全监督	5.01	2.42	7.67	3.67
Ours (λ=0)	弱监督	5.37	1.93	5.37	1.93
Ours (λ=1)	弱监督	4.70	1.68	4.52	1.65

在跨区域+未知朝向条件下，本方法(λ=1)以4.52m平均误差和1.65m中位误差超越所有全监督方法。

消融实验¶

配置	Test-2 Lat d=1↑	Test-2 Lat d=3↑	Test-2 Long d=3↑	说明
卫星query+回归	5.06	15.46	15.79	回归器平移估计差（即使无域差距）
地面query+回归	5.04	15.46	15.83	旋转迁移到地面图像效果好
地面+相关（无置信度）	45.11	73.04	18.30	空间相关性大幅提升横向定位
地面+相关（有置信度）	62.73	86.53	29.67	置信度图显著提升性能（+17.6%横向）
地面+相关+λ=1	64.74	86.18	34.77	噪声标签进一步提升纵向定位

关键发现¶

旋转估计可完美跨域：在卫星-卫星对上训练的旋转网络直接用于地面图像时，精度几乎无损（θ=1°: 99.99%），验证了投影几何可共享的假设
回归器不适合平移估计：即使无域差距，回归器的平移估计也很差（d=3仅15%），但空间相关性可将横向定位提升至73-87%
置信度图非常关键：d=1横向定位从45%提升到63%（+18%），学习到的置信度自动忽略车辆等动态物体
弱监督→最佳泛化：不过拟合GT标签使得跨区域性能最强，同/跨区域差距最小
简单Homography优于复杂cross-view transformer：在弱监督下，无参数的地平面Homography投影反而优于可学习的Geo. Trans.——后者在弱信号下难以训练

亮点与洞察¶

旋转-平移解耦的优雅设计：利用两个不同的物理性质（网络对旋转敏感 vs 空间相关性对平移等变）分别处理两个自由度
零标签旋转训练：通过卫星-卫星图像对完全绕开了地面图像标签需求，且投影几何可迁移的发现极有价值
弱监督反超全监督：不依赖精确标签反而获得更好的跨区域泛化，这一反直觉结果揭示了全监督方法过拟合GT位姿的风险
简单方案在弱信号下更优：复杂设计（Geo. Trans.）在强监督下有效，但在弱监督下反而不如简单的Homography投影

局限与展望¶

全景图特征提取器不可共享：卫星-卫星训练的特征提取器可迁移到针孔相机但不可迁移到全景图像（直线→曲线的映射差异），需要额外处理
纵向定位仍有差距：弱监督在纵向（沿行驶方向）定位上仍明显弱于部分全监督方法
批量大小受限：空间相关性计算内存消耗大，batch size仅为8（使用Geo. Trans.时更小为4），影响对比学习效果
俯视图合成方法未深入探索：作者承认当前的Homography投影不一定最优，更好的弱监督下俯视图合成方法有待开发

评分¶

新颖性: ⭐⭐⭐⭐ — 首个弱监督地面-卫星定位方法，旋转自监督和平移对比学习的组合设计精巧
实验充分度: ⭐⭐⭐⭐⭐ — 双数据集(KITTI+VIGOR)、同/跨区域评估、详尽消融、多种对比方法
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，实验分析深入，补充材料丰富
价值: ⭐⭐⭐⭐⭐ — 大幅降低了高精度定位的数据标注需求，跨区域泛化性能实用性强