Weakly-Supervised Camera Localization by Ground-to-Satellite Image Registration¶
会议: ECCV 2024
arXiv: 2409.06471
代码: https://github.com/YujiaoShi/G2SWeakly
领域: 遥感 / 跨视角相机定位
关键词: 弱监督定位, 地面-卫星图像配准, 自监督旋转估计, 对比学习, 跨视角特征匹配
一句话总结¶
提出首个弱监督的地面-卫星图像配准定位方法,通过卫星-卫星自监督训练旋转估计器、对比学习训练平移估计器,在无需精确GT姿态标签的条件下实现最佳跨区域泛化能力,超越大多数全监督SOTA方法。
研究背景与动机¶
领域现状:相机定位在自动驾驶、机器人和AR/VR等领域至关重要。卫星图像因其广泛可获取性和全球覆盖性,已成为一种廉价的参考数据源。近年来研究者已探索通过地面-卫星图像配准来精炼粗略位姿(来自GPS或图像检索),取得了显著进展。
核心问题:现有的学习方法(如CVR, SliceMatch, OrienterNet, Shi et al.)都依赖精确的GT位姿标签来训练网络。然而:
获取精确标签困难且昂贵:需要Real Time Kinematics (RTK)等专业设备进行实地测量,成本高、耗时长
RTK信号不可靠:受多径干扰、信号遮挡、大气条件等因素影响,即使昂贵的RTK GPS也可能产生误差
大规模数据集受限:精确标注的成本严重限制了训练数据的规模
目标:开发一种弱监督策略——在仅有噪声位姿标签(如来自消费级GPS)的条件下,通过地面-卫星图像配准提升相机定位精度。本文不假设任何区域有精确GT数据。
关键洞察:旋转和平移估计可以解耦处理——旋转估计可通过卫星图像自身构造带GT的训练对进行自监督训练;平移估计可通过对比学习利用正/负卫星图像的信号进行弱监督训练。
方法详解¶
整体框架¶
方法分两阶段:(1) 旋转估计——通过自监督训练的网络回归器估计地面与卫星图像的相对旋转;(2) 平移估计——利用空间相关性(相似度匹配)估计平移。两阶段的特征提取器独立训练,共同确定3-DoF位姿(2-DoF位置 + 1-DoF方向)。
关键设计¶
1. 自监督旋转估计器¶
功能:在无需地面图像标签的情况下训练一个网络回归器来估计地面-卫星图像间的相对旋转。
核心思路:利用Spatial Transformer Networks的思想,构造"卫星-卫星"图像对进行自监督训练。具体地,对一张卫星图像施加随机旋转 \(\mathbf{R}^*(\theta)\) 和平移 \(\mathbf{t}^*\),并用三角形mask模拟地面相机的FoV,将变换后的图像作为query,原图作为reference,训练网络预测已知的相对位姿。
训练目标:
设计动机:卫星图像和针孔相机地面图像具有相似的投影几何——都将现实中的直线映射为图像中的直线。因此在卫星图像对上训练的特征提取器可以直接迁移到地面图像。利用地平面Homography将地面特征投影到俯视图,无需额外可训练参数,使得模型天然可跨域部署。
关键发现:神经网络对输入信号的旋转敏感(无需特殊设计即可估计旋转),但由于聚合层(如max-pooling)的存在,对微小平移不敏感。因此旋转用回归,平移用空间相关性的等变性。
2. 基于对比学习的弱监督平移估计¶
功能:在仅有噪声位置标签的条件下训练特征提取网络,使其能通过相似度匹配估计地面相机的精确位置。
核心思路:对每张地面图像,根据其粗略位置确定一张正样本卫星图像(覆盖相机所在区域)和若干负样本卫星图像(不覆盖),分别计算相似度图 \(\mathbf{S}_{\text{pos}}\) 和 \(\mathbf{S}_{\text{neg}}\),通过对比学习最大化正图的最大相似度、最小化负图的最大相似度:
其中 \(\alpha=10\) 控制收敛速度。
可选补充损失(当有相对准确的噪声标签时,\(\lambda=1\)):
迫使全局最大值等于以标签位置为中心、半径 \(d=5\)m 区域内的局部最大值。
总训练目标:\(\mathcal{L} = \mathcal{L}_2 + \lambda \mathcal{L}_3\),\(\lambda=0\) 为纯弱监督,\(\lambda=1\) 利用噪声标签。
3. 置信度引导的相似度匹配¶
功能:提取ground-view特征时同时预测置信度图,抑制动态物体特征、强调可靠特征。
核心思路:地面分支提取特征 \(\mathbf{F}_g\) 和置信度图 \(\mathbf{C}_g\),将置信度加权后的特征 \(\hat{\mathbf{F}_g} = \mathbf{C}_g \mathbf{F}_g\) 作为滑动窗口,与卫星特征图 \(\mathbf{F}_s\) 计算归一化空间相关性:
设计动机:置信度图无显式监督,而是通过匹配训练目标隐式学习。可视化显示,学习到的置信度图能忽略动态物体(如车辆),高亮可靠的静态特征(如车道线、道路边缘)。仅对地面分支学习置信度,卫星分支不学习——因为卫星图像中动态物体少且占比小。
损失函数 / 训练策略¶
- 旋转阶段:\(\mathcal{L}_1\)(L1损失),用卫星-卫星对训练
- 平移阶段:\(\mathcal{L} = \mathcal{L}_2 + \lambda \mathcal{L}_3\),冻结旋转估计器参数
- 网络架构:VGG16-UNet特征提取 + Swin Transformer回归器
- 训练配置:batch size 8,RTX 3090 GPU,KITTI 3 epochs / VIGOR 10 epochs
- 每个batch中1个正样本 + (B-1)个负样本
- 特征尺寸为原图的1/4(节省空间相关的内存消耗)
实验关键数据¶
主实验:KITTI数据集上的位姿估计¶
| 方法 | 监督 | Test-2 Lat d=1↑ | Test-2 Lat d=3↑ | Test-2 Long d=1↑ | Test-2 Long d=3↑ | Test-2 θ=1↑ | Test-2 θ=3↑ |
|---|---|---|---|---|---|---|---|
| DSM | 全监督 | 10.77 | 31.37 | 3.87 | 11.73 | 3.53 | 14.09 |
| SliceMatch | 全监督 | 32.43 | 78.98 | 8.30 | 24.48 | 46.82 | 46.82 |
| Shi et al. | 全监督 | 57.72 | 86.77 | 14.15 | 34.59 | 98.98 | 100.00 |
| Xia et al. | 全监督 | 44.06 | 81.72 | 23.08 | 52.85 | 57.72 | 92.34 |
| Song et al. | 全监督 | 54.19 | - | 23.10 | - | 43.44 | - |
| Ours (λ=0) | 弱监督 | 62.73 | 86.53 | 9.98 | 29.67 | 99.99 | 100.00 |
| Ours (λ=1) | 弱监督 | 64.74 | 86.18 | 11.81 | 34.77 | 99.99 | 100.00 |
本方法在跨区域(Test-2)评估中取得最佳横向定位和最佳旋转估计性能,且同区域/跨区域性能差距最小。
VIGOR数据集上的比较¶
| 方法 | 监督 | Cross-area Aligned Mean↓ | Cross-area Aligned Median↓ | Cross-area Unknown Mean↓ | Cross-area Unknown Median↓ |
|---|---|---|---|---|---|
| MCC | 全监督 | 9.05 | 5.14 | 12.66 | 9.55 |
| SliceMatch | 全监督 | 5.53 | 2.55 | 8.48 | 5.64 |
| Xia et al. | 全监督 | 4.97 | 1.68 | 5.41 | 1.89 |
| Song et al. | 全监督 | 5.01 | 2.42 | 7.67 | 3.67 |
| Ours (λ=0) | 弱监督 | 5.37 | 1.93 | 5.37 | 1.93 |
| Ours (λ=1) | 弱监督 | 4.70 | 1.68 | 4.52 | 1.65 |
在跨区域+未知朝向条件下,本方法(λ=1)以4.52m平均误差和1.65m中位误差超越所有全监督方法。
消融实验¶
| 配置 | Test-2 Lat d=1↑ | Test-2 Lat d=3↑ | Test-2 Long d=3↑ | 说明 |
|---|---|---|---|---|
| 卫星query+回归 | 5.06 | 15.46 | 15.79 | 回归器平移估计差(即使无域差距) |
| 地面query+回归 | 5.04 | 15.46 | 15.83 | 旋转迁移到地面图像效果好 |
| 地面+相关(无置信度) | 45.11 | 73.04 | 18.30 | 空间相关性大幅提升横向定位 |
| 地面+相关(有置信度) | 62.73 | 86.53 | 29.67 | 置信度图显著提升性能(+17.6%横向) |
| 地面+相关+λ=1 | 64.74 | 86.18 | 34.77 | 噪声标签进一步提升纵向定位 |
关键发现¶
- 旋转估计可完美跨域:在卫星-卫星对上训练的旋转网络直接用于地面图像时,精度几乎无损(θ=1°: 99.99%),验证了投影几何可共享的假设
- 回归器不适合平移估计:即使无域差距,回归器的平移估计也很差(d=3仅15%),但空间相关性可将横向定位提升至73-87%
- 置信度图非常关键:d=1横向定位从45%提升到63%(+18%),学习到的置信度自动忽略车辆等动态物体
- 弱监督→最佳泛化:不过拟合GT标签使得跨区域性能最强,同/跨区域差距最小
- 简单Homography优于复杂cross-view transformer:在弱监督下,无参数的地平面Homography投影反而优于可学习的Geo. Trans.——后者在弱信号下难以训练
亮点与洞察¶
- 旋转-平移解耦的优雅设计:利用两个不同的物理性质(网络对旋转敏感 vs 空间相关性对平移等变)分别处理两个自由度
- 零标签旋转训练:通过卫星-卫星图像对完全绕开了地面图像标签需求,且投影几何可迁移的发现极有价值
- 弱监督反超全监督:不依赖精确标签反而获得更好的跨区域泛化,这一反直觉结果揭示了全监督方法过拟合GT位姿的风险
- 简单方案在弱信号下更优:复杂设计(Geo. Trans.)在强监督下有效,但在弱监督下反而不如简单的Homography投影
局限与展望¶
- 全景图特征提取器不可共享:卫星-卫星训练的特征提取器可迁移到针孔相机但不可迁移到全景图像(直线→曲线的映射差异),需要额外处理
- 纵向定位仍有差距:弱监督在纵向(沿行驶方向)定位上仍明显弱于部分全监督方法
- 批量大小受限:空间相关性计算内存消耗大,batch size仅为8(使用Geo. Trans.时更小为4),影响对比学习效果
- 俯视图合成方法未深入探索:作者承认当前的Homography投影不一定最优,更好的弱监督下俯视图合成方法有待开发
相关工作与启发¶
- Shi et al. (2023):全监督的地面-卫星定位方法,本文的旋转回归器和Homography投影借鉴其设计
- SliceMatch / OrienterNet:代表性的全监督方法,在同区域评估上表现优异但跨区域泛化不足
- Tang et al.:针对Lidar/Radar的自监督定位策略,本文将类似思路扩展到相机
- 启发:弱监督在位姿估计中的优势值得在其他视觉定位任务中推广,"利用数据自身结构构造监督信号"是解决标注瓶颈的通用思路
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首个弱监督地面-卫星定位方法,旋转自监督和平移对比学习的组合设计精巧
- 实验充分度: ⭐⭐⭐⭐⭐ — 双数据集(KITTI+VIGOR)、同/跨区域评估、详尽消融、多种对比方法
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,实验分析深入,补充材料丰富
- 价值: ⭐⭐⭐⭐⭐ — 大幅降低了高精度定位的数据标注需求,跨区域泛化性能实用性强
相关论文¶
- [ICCV 2025] GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization
- [CVPR 2026] Are Pretrained Image Matchers Good Enough for SAR-Optical Satellite Registration?
- [ECCV 2024] ConGeo: Robust Cross-View Geo-Localization Across Ground View Variations
- [ECCV 2024] Adapting Fine-Grained Cross-View Localization to Areas without Fine Ground Truth
- [ECCV 2024] Learning Representations of Satellite Images From Metadata Supervision