UniGeoCLIP: Unified Geospatial Contrastive Learning¶

会议: CVPR 2026
arXiv: 2604.11668
代码: https://gastruc.github.io/unigeoclip
领域: 遥感
关键词: 地理空间表示学习, 对比学习, 多模态, 坐标编码, 统一嵌入空间

一句话总结¶

UniGeoCLIP 首次通过纯对比学习将五种互补的地理空间模态（航拍图、街景图、数字表面模型、文本、GPS 坐标）对齐到统一嵌入空间，并提出多尺度坐标编码器提升空间表示能力。

领域现状：地理空间表示学习分三种范式——嵌入场（坐标→向量）、多模态融合（多传感器→单一表示）、对比对齐（如 GeoCLIP/SatCLIP 对齐坐标和卫星图）。

现有痛点：(1) 嵌入场是静态快照无法建模动态；(2) 融合模型将所有模态压缩为单一表示，无法跨模态检索/比较；(3) 现有对比方法只对齐两种模态（通常是坐标+卫星图），忽略了文本、街景、地形等重要模态。

核心矛盾：不同地理空间模态提供互补信息（航拍看布局、街景看立面、地形看高程、文本描述语义），但缺乏将它们统一到同一空间的框架。

核心 idea：全对全对比学习——五种模态互相对比（非通过中心 pivot），构建真正统一的嵌入空间。加上新的多尺度坐标编码器克服原始坐标嵌入的表达瓶颈。

五个模态专属编码器（SigLIP-2 的图像/文本编码器、DSM ViT 编码器、多尺度 GPS 编码器）→ 全对全对比损失对齐 \(\binom{5}{2}=10\) 对模态 → 统一的 D 维嵌入空间。

全对全对比对齐:
- 功能：所有模态都是"一等公民"，无需中心 pivot
- 核心思路：对每批数据的所有模态对计算 InfoNCE 对比损失的加权和。与 ImageBind（通过图像作为 pivot 间接对齐）不同，直接对比确保任意两种模态的嵌入都可以直接比较
- 设计动机：依赖 pivot 的方法在 pivot 模态质量差时会级联影响其他模态，全对全避免了这个问题
多尺度坐标编码器（Scaled Lat-Lon Encoder）:
- 功能：以多频率编码地理坐标，捕获多尺度空间结构
- 核心思路：先用等面积投影映射经纬度到平面，然后用多个不同带宽 \(\sigma\) 的随机傅里叶特征矩阵分别编码（低 \(\sigma\) 捕获大尺度、高 \(\sigma\) 捕获小尺度），每个频率编码作为一个 token，通过 self-attention 实现跨尺度交互，最终平均池化得到 D 维嵌入
- 设计动机：单一 \(\sigma\) 的傅里叶特征要么捕获大尺度要么小尺度，类似多尺度金字塔的设计同时覆盖从大洲级到街区级的空间结构
DSM 编码器:
- 功能：编码数字表面模型（地形/建筑高程信息）
- 核心思路：从头训练的 ViT with register tokens，CLS token 作为模态嵌入
- 设计动机：DSM 提供了其他视觉模态无法获取的几何高程信息

10 对模态的 InfoNCE 对比损失加权和。各编码器从 SigLIP-2 初始化（图像和文本）或从头训练（DSM 和 GPS），训练时使用 hard negative mining。

任务	指标	UniGeoCLIP	单模态对比	提升
土地利用分类	Acc	提升	GeoCLIP/SatCLIP	一致优
跨模态检索	Recall@K	大幅优	单对方法	新能力
社会经济推断	R²	提升	坐标基线	显著