跳转至

HierLoc: Hyperbolic Entity Embeddings for Hierarchical Visual Geolocation

会议: ICLR 2026
arXiv: 2601.23064
代码: 无
领域: 扩散模型
关键词: 视觉地理定位, 双曲嵌入, 层次实体, 对比学习, 检索

一句话总结

提出HierLoc,将地理定位重新建模为双曲空间中的图像-实体对齐问题,用24万个地理实体嵌入替代500万+图像嵌入,在OSV5M上降低19.5%平均测地误差并将子区域准确率提升43%。

研究背景与动机

视觉地理定位(从图像内容推断拍摄地点)是一个跨尺度的全球挑战。现有方法分为检索式(需索引百万图像嵌入)、分类式(网格分类忽略地理连续性)和生成式(扩散模型在精细尺度力不从心)。核心矛盾:地理本身具有层次结构(国家→区域→子区域→城市),实体数量从国家到城市呈指数增长,但欧氏距离仅线性增长,导致深层实体拥挤、判别力下降。双曲空间天然提供指数级体积增长,完美匹配这种层次分支结构。HierLoc的创新切入点是将地理定位从"图像到图像检索"转为"图像到实体对齐"。

方法详解

整体框架

在Lorentz双曲空间中嵌入地理实体和图像。图像通过冻结视觉编码器(DINOv3)编码后映射到双曲流形,实体结合图像/文本/坐标三模态特征。跨模态注意力对齐图像与四级层次实体,预训练的Geo-Weighted Hyperbolic InfoNCE(GWH-InfoNCE)损失学习对齐。推理时通过beam search在层次实体上检索。

关键设计

  1. 层次实体构建与嵌入:

    • 功能:将训练元数据压缩为~24万层次实体(233国家, 4946区域, 29214子区域, 209894城市)
    • 核心思路:每个实体关联三模态特征——图像均值嵌入 \(\text{Img}_i\)(训练图像的DINOv3特征均值)、文本嵌入 \(\text{Text}_i\)(CLIP编码实体名)、坐标 \(\text{Coords}_i\)(SphereM+编码)。锚点嵌入 \(A_i\) 在原点切空间随机初始化后映射到双曲面,最终嵌入 \(H_i = \exp_O(\log_0(A_i) + \alpha_{\text{node}} \Delta_i)\)
    • 设计动机:均值嵌入虽简单但在实体级产生稳定判别原型
  2. 跨模态注意力:

    • 功能:在切空间中以图像为query、实体为key/value进行多头注意力
    • 核心思路:每个层次级别独立进行8头注意力,四个级别的上下文拼接并通过MLP融合后加回原始特征。仅更新图像流,实体保持不变——防止实体嵌入过拟合训练数据
    • 设计动机:不对称更新策略确保实体嵌入的泛化性
  3. GWH-InfoNCE损失:

    • 功能:将地理结构纳入双曲对比学习
    • 核心思路:用haversine公式计算的大圆距离 \(g_{\ell,k}\) 加权负样本:\(w_{\ell,k} = 1 + \lambda \exp(-g_{\ell,k}/\sigma)\),损失 \(\mathcal{L}_\ell = -\log \frac{\exp(-d_\ell^+/\tau)}{\exp(-d_\ell^+/\tau) + \sum_k w_{\ell,k} \exp(-d_{\ell,k}^-/\tau)}\)。总损失跨层次聚合:\(\mathcal{L} = \sum_{\ell} \beta_\ell \mathcal{L}_\ell\)
    • 设计动机:地理上邻近的负样本更难区分,应给予更高权重以强化精细判别

损失函数 / 训练策略

  • 欧式参数用AdamW,流形参数用RiemannianAdam
  • 批大小16,学习率2×10⁻⁴,6×L40S GPU训练5 epoch(~60小时)
  • 推理用beam search(beam宽度10)在实体层次上逐级细化

实验关键数据

主实验(OSV5M基准)

方法 GeoScore↑ 距离(km)↓ 国家% 区域% 子区域% 城市%
SC Retrieval 3597 1386 73.4 45.8 28.4 19.9
LocDiff - - 77.0 46.3 - 11.0
HierLoc(DINOV3) 3963 861 82.9 55.0 40.7 23.3

消融实验(各组件贡献)

配置 GeoScore 说明
欧式空间 基线 深层实体拥挤
+双曲空间 提升 指数体积增长
+GWH-InfoNCE 最优 地理感知负样本加权
Laplace vs Gaussian衰减 Laplace更优 衰减核的选择有影响

关键发现

  • 国家准确率+8.8%, 区域+20.1%, 子区域+43.2%, 城市+16.8%
  • 平均测地误差降低19.5%(1386km→861km vs SC Retrieval)
  • 从~960万图像记录压缩到24万实体,搜索空间大幅缩减
  • DINOV3编码器优于ViT-L/14

亮点与洞察

  • "图像到实体对齐"将检索复杂度从O(N)降为层次遍历的亚线性
  • GWH-InfoNCE中地理距离加权负样本的设计直觉精妙——地理上近的才是强负样本
  • 不对称跨模态注意力(仅更新图像、保持实体不变)防止过拟合

局限与展望

  • 城市级实体使用图像均值可能丢失视觉多样性信息
  • beam search宽度固定为10,自适应策略可能更好
  • 需要预先构建层次结构,对缺少行政区划数据的地区可能受限

相关工作与启发

  • vs PIGEON: 基于大规模分类+语义融合,但坍塌为单级输出丢失层次信号
  • vs GeoCLIP: 直接将坐标作为预测目标,不利用层次结构

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将双曲嵌入用于全球层次地理定位
  • 实验充分度: ⭐⭐⭐⭐⭐ OSV5M全面评估+多个外部基准验证
  • 写作质量: ⭐⭐⭐⭐ 方法描述详细,数学推导清晰
  • 价值: ⭐⭐⭐⭐⭐ 几何感知层次嵌入对其他层次结构任务有启发意义

相关论文