GeoBridge: A Semantic-Anchored Multi-View Foundation Model for Geo-Localization¶

会议: CVPR 2026
arXiv: 2512.02697
代码: 即将发布
领域: 遥感
关键词: 跨视角地理定位, 多视角匹配, 语义锚定, 无人机导航, 跨模态检索

一句话总结¶

GeoBridge 提出语义锚定的多视角地理定位基础模型，将无人机/街景/卫星影像通过文本描述构建跨模态语义桥梁，实现双向跨视角匹配和语言到图像定位，并构建了GeoLoc数据集（50K+对，36国）。

训练时：语义锚定机制同时对齐文本-各视角视觉特征（跨模态一致性）和对齐不同视角视觉特征（跨视角连贯性）。推理时：支持无人机-街景-卫星任意视角对的直接匹配，可选地加入文本进行语言到图像定位。

语义锚定机制:
- 功能：通过文本描述桥接多视角特征空间
- 核心思路：将每个位置的无人机、街景全景和卫星图像蒸馏为统一的、位置和视角感知的文本描述。训练时通过对比学习同时拉近文本-视觉对和视角-视角对的距离。
- 设计动机：文本作为天然的模态无关表示，可以将视觉差异巨大的不同视角统一到共同的语义空间中。
GeoLoc数据集:
- 功能：首个大规模、完全对齐的多视角地理定位数据集
- 核心思路：50K+个位置，每个位置包含严格共位的无人机图像、Google Street View全景和卫星图像，来自36个国家。每个位置配有统一的文本描述。地理坐标非重叠设计确保了评估的严格性。
- 设计动机：现有数据集局限于双视角卫星中心范式，缺乏多视角完全对齐的三元组和文本描述。
双向跨视角匹配:
- 功能：支持任意视角对的检索，特别是无人机-街景这一新任务
- 核心思路：通过语义锚定训练，模型学到了视角不变的位置表示。推理时任意两个视角的图像可直接通过特征相似度匹配，无需文本参与。
- 设计动机：无人机-街景匹配在灾害响应、低空物流验证、基础设施检查等场景有明确需求。

多视角+跨模态对比学习损失，结合文本-视觉对齐和视角-视角对齐。

任务	指标	GeoBridge	之前SOTA	提升
无人机→卫星	R@1	提升	-	显著
街景→卫星	R@1	提升	-	竞争力
无人机→街景	R@1	首次实现	N/A	新任务
文本→图像	R@1	有效	N/A	新能力