RHO: Robust Holistic OSM-Based Metric Cross-View Geo-Localization¶

会议: CVPR 2026
arXiv: 2603.27758
代码: https://github.com/InSAI-Lab/RHO
领域: Remote Sensing / Visual Localization
关键词: Cross-View Geo-Localization, OpenStreetMap, Panorama, Robustness, BEV

一句话总结¶

提出首个面向恶劣天气和传感器噪声的OSM-based度量级跨视角定位基准CV-RHO（270万+ 图像），并设计双分支Pin-Pan架构RHO模型，结合全景去畸变（SUM）和位置-朝向融合（POF）机制，在多种退化条件下将定位性能提升高达20%。

研究背景与动机¶

跨视角地理定位（CVGL）是计算机视觉的基础任务，可分为大范围检索（LCVGL）和度量级精细定位（MCVGL）两个方向。MCVGL从粗糙GPS先验出发、通过匹配地面-卫星图像确定米级位置和朝向，在自动驾驶和遥感中有重要价值。

然而，现有研究存在三个关键不足：

鲁棒性缺失：已有MCVGL方法几乎全部假设理想光照和天气条件，但真实场景中雨、雪、雾、夜间等退化条件普遍存在。作者实验表明，在理想条件训练的OrienterNet在退化条件下Position Recall大幅下降（平均-8.22%@1m）。

全景信息未利用：相比针孔图像，360° 全景图提供了更丰富的视觉信息，有利于位置和朝向的估计，但全景图直接输入存在严重畸变问题。

OSM优势未充分发挥：OpenStreetMap相比卫星图更新更频繁，存储开销仅为卫星图的1/15（4.8MB/km² vs 75MB/km²），但尚无大规模OSM-MCVGL鲁棒性基准。

方法详解¶

整体框架¶

RHO采用双分支Pin-Pan架构（如图3所示）。整体流程：

全景分支：输入360°全景图 → SUM模块去畸变 → ViT编码器 → BEV投影 → 与OSM特征图匹配 → 生成三维概率体 (u, v, θ)
针孔分支：输入120°针孔图 → 编码器 → BEV投影 → 与OSM特征图匹配 → 生成三维概率体
POF模块：融合两个概率体，输出最终3-DoF相机位姿

关键设计¶

Split-Undistort-Merge (SUM) 模块：解决全景等矩投影导致的严重畸变问题
- 将一张全景图分割为3张120°视角的针孔图像（对应0°-120°、120°-240°、240°-360°）
- 对每张针孔图去畸变处理
- 分别通过图像编码器和BEV投影得到3个BEV特征图
- 在BEV空间合并为完整的360° BEV特征图
- 设计动机：直接使用360°全景图训练OrienterNet的PR@1m仅3.79%，远低于针孔版本的21.83%
Position-Orientation Fusion (POF) 模块：利用全景和针孔各自的互补信息
- 第一阶段：通过LogSumExp将全景概率体沿朝向维度边缘化获得2D空间先验，再用该先验加权增强针孔概率体的位置信息（公式2-5）
- 第二阶段：将增强后的针孔概率体沿空间维度边缘化获得朝向先验，再用该先验加权增强全景概率体的朝向信息（公式6-8）
- 核心思想基于信息论：全景图的Shannon熵在旋转中不变→适合位置估计；针孔图的Shannon熵随旋转变化→适合朝向估计
- α和β为可学习超参数
CV-RHO 数据集构建：首个大规模OSM-MCVGL鲁棒性基准
- 覆盖7个城市（美德法三国），11.4万全景图，34.2万针孔图
- 8种退化变体：雨、雪、雾、夜间（用FLUX.1 Kontext生成，耗30.7k A100 GPU小时）；过曝、欠曝、运动模糊（用OpenCV生成）
- 总计272万+图像
- 额外收集了跨区域测试集（Mount Vernon）和Sim2Real测试集

损失函数 / 训练策略¶

训练目标：最大化3-DoF相机位姿的概率估计，使用NLL loss
训练资源：12×A100 GPU
旋转角采样：训练64个、评估256个
批大小36，学习率2e-5，使用Adam优化器 + ReduceLROnPlateau调度器
最佳模型出现在2-4 epoch（约20k-40k步）

实验关键数据¶

主实验¶

Clean条件 (Table 3)

方法	FoV	PR@1m	PR@3m	PR@5m	OR@1°	OR@3°	OR@5°
OrienterNet	90°	18.02	58.37	71.04	27.72	63.86	77.50
OrienterNet	120°	21.83	66.16	78.03	35.02	74.89	85.62
OrienterNet	360°	3.79	19.35	28.78	10.29	28.43	36.87
RHO	360°	24.59	73.55	84.36	43.46	83.61	90.44

退化条件鲁棒性 (Table 4, Clean训→各条件测)

方法	训练/平均退化	PR@1m下降	OR@1°下降
OrienterNet	Clean→AV	-8.22	-10.98
RHO	Clean→AV	-5.97	-9.95

退化条件训→测 (Table 4下半)

方法	匹配条件训→测/平均退化	PR@1m	OR@1°
OrienterNet	AV→AV	-2.04	-1.82
RHO	AV→AV	+0.03	-1.10

RHO在匹配训测条件下几乎不退化，PR@1m甚至略有提升。

消融实验¶

配置	PR@3m	OR@3°	说明
仅针孔分支	~66	~75	基线OrienterNet 120°
仅全景（无SUM）	~19	~28	畸变严重
全景+SUM	~70	~80	SUM有效解决畸变
全景+SUM+POF	73.55	83.61	POF进一步增强+3.5/+3.6

关键发现¶

直接使用360°全景图训练效果极差（PR@1m仅3.79%），SUM模块是全景分支工作的关键
POF双阶段融合显著优于简单的概率体拼接或单分支方案
在匹配退化条件训练后，RHO的平均退化接近0（PR@1m: +0.03），展现极强鲁棒性
运动模糊是最难处理的退化类型，即使RHO在MB条件下的退化也最为显著

亮点与洞察¶

信息论驱动的架构设计：用Shannon熵分析全景/针孔图在位置和朝向估计上的互补性，为双分支设计提供了理论依据
轻量高效的畸变处理：SUM模块无须额外训练，利用标准的全景→针孔投影解决畸变问题
首个OSM-MCVGL鲁棒性基准：CV-RHO填补了该领域的数据空白，对推动鲁棒定位研究有重要意义
Sim2Real可行性：利用FLUX.1 Kontext生成的退化图像训练后，模型在真实退化场景中的零样本测试也表现良好

局限与展望¶

运动模糊条件下性能下降最大，提示需要针对性的数据增强或特征抗模糊设计
SUM将全景分为3个120°视图是固定设计，可探索自适应分割策略
合成退化与真实退化仍有域差距，可引入更多domain adaptation手段
未讨论计算开销，双分支架构可能限制实时性
OSM数据更新虽快但并非实时，在施工区域等快速变化场景仍可能失效

评分¶

新颖性: ⭐⭐⭐⭐ — 双分支架构和POF融合设计新颖，但核心方法仍基于BEV匹配框架
实验充分度: ⭐⭐⭐⭐⭐ — 多条件、多设置、跨区域、Sim2Real实验全面覆盖
写作质量: ⭐⭐⭐⭐ — 结构清晰，图表丰富
价值: ⭐⭐⭐⭐ — 数据集和鲁棒性分析对社区有较大贡献