GeoSURGE: Geo-localization using Semantic Fusion with Hierarchy of Geographic Embeddings¶

会议: CVPR 2026
arXiv: 2510.01448
代码: 无
领域: 图像检索与定位
关键词: 视觉地理定位、语义融合、层级地理嵌入、对比学习、跨注意力

一句话总结¶

GeoSURGE 提出层级地理嵌入和语义融合模块，将全球图像地理定位问题建模为视觉表征与学习得到的地理表征之间的匹配，在 5 个基准的 25 项指标中取得 22 项 SOTA。

研究背景与动机¶

领域现状：全球视觉地理定位旨在仅凭图像视觉内容确定其在地球上的位置。现有方法主要分为两类：基于检索的方法（将查询图像与大规模地理标记图像库比对）和基于分类的方法（将地球表面离散化为地理单元并训练分类器）。近年 GeoCLIP 用 GPS 坐标代替图像参考、Img2Loc 和 G3 引入大视觉语言模型进一步提升了性能。

现有痛点：基于检索的方法在推理时需要大规模相似度搜索，计算开销大；基于分类的方法必须在空间分辨率和全球覆盖度之间取舍。更根本地，GPS 坐标的维度太低，很难学到表达力强的地理表征。GeoCLIP 用 Random Fourier Features 缓解了一部分问题，但低维 GPS 表征仍是瓶颈。

核心矛盾：地理坐标（经纬度）本质上是二维标量，难以承载丰富的地理语义；同时图像的外观特征易受光照、天气、视角变化影响，单一 RGB 特征的鲁棒性不够。

本文目标 (1) 如何让地理表征本身具有足够高的表达力，使得不同尺度的地理区域都有可区分的特征？(2) 如何让视觉表征更鲁棒，融合场景语义信息来补足外观特征的不足？

切入角度：作者观察到分类方法的地理单元概念可以和检索方法结合——不把地理单元当离散标签，而是为每个单元学一个可训练的嵌入向量；同时利用语义分割提供的场景结构信息来补充 RGB 外观特征。

核心 idea：用层级可学习地理嵌入代替低维 GPS 坐标作为地理表征，用语义分割与 RGB 的 latent cross-attention 融合代替纯外观特征。

方法详解¶

整体框架¶

GeoSURGE 的输入是一张 RGB 图像，输出是其在地球上的经纬度预测。系统包含两大核心组件：(1) 地理表征——通过 S2 Geometry 将地球表面递归划分为多层级的地理单元，每个单元学习一个嵌入向量，形成层级分布式地理表征；(2) 视觉表征——用 CLIP ViT 提取 RGB 特征，同时用 OneFormer 生成语义分割图，通过 latent cross-attention 将两者融合为一个鲁棒的视觉特征向量。训练使用 InfoNCE 对比学习目标对齐视觉-地理特征对；推理时在层级中逐级匹配，将各级概率乘积作为最终预测。

关键设计¶

层级地理嵌入 (Hierarchical Geographic Embeddings):
- 功能：为地球表面提供多尺度的分布式特征表征
- 核心思路：使用 Google S2 Geometry 将地球表面投影到立方体六个面上，然后递归细分。任何包含超过 \(\tau_{max}\) 个样本的单元被继续分裂，少于 \(\tau_{min}\) 的被排除。通过变化 \(\tau_{max}\)（从 25000 到 500，共 7 级）产生从粗到细的多层分区。每个分区中的每个地理单元对应一个可学习的 768 维嵌入向量，这些向量在训练中通过对比学习与图像特征对齐。训练时各层级的嵌入独立学习以促进多样性；推理时将所有层级的概率相乘得到层级推理结果
- 设计动机：GPS 坐标是 2D 标量，表达力受限且需要额外组件（如 Random Fourier Features）来增强。可学习嵌入向量能从数据中积累该区域所有训练图像的视觉信息，形成更丰富的地理表征。多尺度层级设计使得粗细粒度信息互补
语义融合模块 (Semantic Fusion Module):
- 功能：将语义分割信息注入 RGB 外观特征，生成鲁棒的视觉表征
- 核心思路：先用 CLIP ViT-Large（冻结除最后几层外的参数）提取 RGB patch tokens 和 CLS token，再用 OneFormer 生成 ADE20K 语义分割图。分割图经过线性投影得到语义 tokens。语义 tokens 作为 query、RGB tokens 作为 key 和 value 进行 latent multi-headed cross-attention（latent attention 降低了 memory 开销），然后通过 MLP + 残差连接 + LayerNorm。模块串行重复 3 个 fusion block 以学习层级融合特征。最终提取融合后的 CLS token，经 LayerNorm 和线性投影生成视觉特征向量
- 设计动机：纯 RGB 特征容易受光照、天气、视角影响。语义分割提供的场景结构（建筑、植被、道路等）更具不变性。此外，语义信息能标识出不利于定位的区域（如人、车辆），隐式减少噪声干扰。使用 latent cross-attention 而非简单拼接，能让语义信息选择性地引导 RGB 特征聚合
对比学习训练与层级推理:
- 功能：对齐视觉-地理表征并实现多尺度推理
- 核心思路：训练时为每个训练样本提取融合 CLS token \(\mathbf{v}\) 和其真实位置对应的地理嵌入向量 \(\mathbf{g}\)，用 InfoNCE loss \(\mathcal{L}_i = -\log \frac{\exp(\mathbf{v}_i^\top \mathbf{g}_i / \tau)}{\sum_j \exp(\mathbf{v}_i^\top \mathbf{g}_j / \tau)}\) 最大化正确配对的余弦相似度。完整训练目标是所有层级 loss 之和。推理时计算查询图像与所有层级嵌入的 softmax 概率，对最细粒度的每个单元，将其所有父级概率相乘得到最终预测
- 设计动机：层级推理结合了粗粒度的高置信度和细粒度的高分辨率，类似于递进的地理搜索

损失函数 / 训练策略¶

使用 AdamW 优化器，初始学习率 0.0001，权重衰减 0.0001，有效 batch size 1024。每个 epoch 进行学习率衰减（gamma=0.5），早停策略（4 个 epoch 无改善停止）。温度参数初始化为 0.07，每个层级独立。8 块 A6000 GPU 训练 21 小时。使用 Ten Crop 方法平均预测。

实验关键数据¶

主实验¶

数据集	指标(1km)	GeoSURGE	GeoCLIP	PIGEOTTO	G3/GPT-4V
IM2GPS	街道级	27.0	16.5	11.8	-
IM2GPS	大陆级	93.2	88.6	91.1	-
IM2GPS3k	街道级	17.2	14.1	10.9	16.6
IM2GPS3k	大陆级	87.6	83.8	84.4	84.7
YFCC26k	街道级	17.8	11.6	10.1	-
GWS15k	大陆级	80.8	74.1	84.7†	-

在 5 个数据集 25 项指标中取得 22 项 SOTA。在排除 LVLM 方法的情况下，25 项全部最优。

消融实验¶

配置	YFCC26k 1km	YFCC26k 25km	GWS15k 1km	GWS15k 25km
Full (7级层级)	17.8	31.5	1.0	4.6
5级层级	11.1	30.0	0.4	3.5
1级层级	8.9	27.5	0.1	3.1
3个融合块	17.8	31.5	1.0	4.6
无融合	13.8	30.4	0.6	4.6

关键发现¶

层级深度对细粒度指标（街道/城市级）影响最大：7 级 vs 1 级在 YFCC26k 1km 上相差约 2 倍（17.8 vs 8.9）
语义融合模块在 YFCC26k 1km 上提供约 36.5% 的相对提升（13.8→17.8）
地理嵌入（检索目标）在层级和扁平设置下都一致优于分类目标，证明嵌入和层级是互补的
LVLM 方法在细粒度定位上有优势（可能来自大规模预训练中对标志性特征的记忆），但 GeoSURGE 在中粗粒度定位上全面胜出

亮点与洞察¶

将分类方法的地理单元和检索方法的特征匹配统一起来的设计非常巧妙。不把单元当标签而是当可学习嵌入，让每个区域"自动积累"其视觉特征，兼得两种范式的优点
语义分割作为 cross-attention 的 query 而非独立的第二表征是一个有意义的视角。语义不直接参与特征表达，而是作为结构性信号指导 RGB 特征的聚合，这种"引导而非替代"的思路可迁移到其他多模态融合任务
在 GWS15k（全球均匀分布）上性能提升最为显著，说明方法的泛化性好

局限与展望¶

依赖 OneFormer 进行语义分割预处理，增加了推理开销（数十万图像的处理）
分区方案固定使用 S2，没有探索自适应分区或数据驱动分区对性能的影响
缺少对不同视觉骨干网络（如 ViT-H、DINOv2）的探索
面对训练数据稀疏的地理区域（如海洋附近的小岛），参考图像距离真值可达 800+ km，说明数据覆盖仍是根本瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ 层级嵌入+语义融合的组合设计有新意，但各组件并非全新
实验充分度: ⭐⭐⭐⭐⭐ 5 个基准数据集 + 详细消融 + 定性分析，非常全面
写作质量: ⭐⭐⭐⭐ 逻辑清晰，结构规范
价值: ⭐⭐⭐⭐ 在全球视觉定位领域建立了新的 SOTA 基线