跳转至

VidTAG: Temporally Aligned Video to GPS Geolocalization

会议: CVPR 2026
arXiv: 2604.12159
代码: https://parthpk.github.io/vidtag_webpage
领域: 视频理解 / 地理定位
关键词: 视频地理定位, 帧到GPS检索, 时间一致性, 轨迹预测, 去噪

一句话总结

提出 VidTAG,一个双编码器(CLIP+DINOv2)帧到GPS检索框架,通过 TempGeo 模块实现帧间时间对齐,GeoRefiner 编码器-解码器模块精炼GPS预测,在全球尺度下实现时间一致的逐帧视频地理定位。

研究背景与动机

领域现状:图像地理定位主要有分类(划分地球区域预测标签)和检索(匹配地理参考图库)两种范式,GeoCLIP 将图像和GPS嵌入共享空间实现直接GPS检索。

现有痛点:现有分类方法只能提供粗粒度的城市级定位;图像检索方法需要庞大的图片库,在全球尺度不可行。对于视频,逐帧应用图像方法会产生"抖动"轨迹,最坏情况下预测路径会跨越大洲。唯一的全球视频方法 CityGuessr 在整个视频级别推理,不支持逐帧定位。

核心矛盾:如何在全球尺度下获得精确且时间一致的逐帧轨迹。

本文目标:(1) 提出帧到GPS检索的新范式;(2) 解决视频预测的时间不一致性问题。

切入角度:构建GPS坐标库(而非图像库)是简单且廉价的,帧到GPS检索在全球尺度下可行。

核心 idea:用 TempGeo 进行帧间时间对齐 + GeoRefiner 去噪式精炼,实现时间一致的逐帧GPS预测。

方法详解

整体框架

两阶段训练:Phase I 通过对比学习训练双帧编码器(CLIP+DINOv2)+ TempGeo + 位置编码器;Phase II 固定 Phase I,训练 GeoRefiner 编码器-解码器去噪精炼 GPS 预测。推理时帧通过双编码器和 TempGeo 生成嵌入,初始检索 GPS 预测后经 GeoRefiner 精炼。

关键设计

  1. 双帧编码器 (CLIP + DINOv2):

    • 功能:为每帧生成语义和视觉互补的描述
    • 核心思路:CLIP 提供语言对齐语义(消歧地标、标牌、场景),DINOv2 提供鲁棒的自监督特征(全局外观,对域偏移不敏感)。两者的 CLS token 拼接为帧表示 \(\mathbf{z}_t = [\mathbf{f}_{clip} \| \mathbf{f}_{dino}]\)
    • 设计动机:CLIP 强于语义理解,DINOv2 强于视觉描述,互补结合有利于帧到GPS检索
  2. TempGeo 时间对齐模块:

    • 功能:通过帧间注意力实现时间一致的帧嵌入
    • 核心思路:轻量 Transformer 编码器对所有帧做全自注意力,添加时间位置编码。不确定或模糊的帧可借用相邻和远距帧的上下文信息,孤立的异常预测被拉向共识
    • 设计动机:区别于后处理平滑,TempGeo 在检索前就进行时间对齐,使跨帧上下文直接塑造学习信号
  3. GeoRefiner 去噪精炼模块:

    • 功能:通过编码器-解码器架构精炼GPS序列预测
    • 核心思路:编码器处理 TempGeo 输出的帧嵌入,解码器接收GPS嵌入作为查询,通过交叉注意力将GPS序列与视觉 token 对齐。训练时对真值GPS坐标注入仿真噪声(模拟 Phase I 的典型失败模式:序列偏移、坍塌、随机抖动),解码器学习利用视觉上下文去噪
    • 设计动机:Phase I 的帧级预测仍有噪声,GeoRefiner 在GPS域进行同域检索精炼

损失函数 / 训练策略

Phase I:对比损失(帧嵌入与GPS嵌入的相似度矩阵 vs 单位矩阵的交叉熵)。Phase II:加权 Hinge 损失,同时优化帧级和视频级对齐。

实验关键数据

主实验

模型 帧@1km↑ 帧@5km↑ 帧中位误差↓ 视频@1km↑ DFD↓ MRD↓
GeoCLIP-ZS 2.7% 22.9% 11.54km 3.8% 24.94 2.83
GeoCLIP-FT 22.5% 63.0% 2.97km 18.6% 22.52 2.82
DINOv2-Cls 18.1% 58.2% 3.86km 18.4% 4.28 1.60
VidTAG 41.0% 76.7% 1.35km 39.8% 3.87 1.07

消融实验

配置 @1km 中位误差 DFD
仅 CLIP 32.5% 1.85km 8.42
仅 DINOv2 28.3% 2.15km 5.12
双编码器 35.2% 1.62km 6.78
+ TempGeo 38.1% 1.48km 4.25
+ GeoRefiner (完整) 41.0% 1.35km 3.87

关键发现

  • VidTAG 在 MSLS 上 @1km 超过 GeoCLIP 20 个百分点,在 CityGuessr68k 上超过 SOTA 25%
  • TempGeo 和 GeoRefiner 对轨迹质量(DFD、MRD)的改善最为显著
  • 双编码器的互补性通过消融得到验证

亮点与洞察

  • 帧到GPS检索是一个优雅的问题重构:GPS库构建简单廉价,使全球尺度逐帧定位成为可能
  • GeoRefiner 的去噪训练策略很巧妙:注入仿真噪声而非直接用 Phase I 预测,避免了训练-推理分布不匹配

局限与展望

  • 依赖均匀网格GPS库,库分辨率直接影响精度上限
  • 在地理覆盖稀疏的区域效果可能下降
  • 未利用 OCR 等额外信息(路牌、文字)
  • 可结合多模态大语言模型进一步推理地理线索

相关工作与启发

  • vs GeoCLIP: GeoCLIP 仅做图像级,VidTAG 扩展到视频帧级并解决时间一致性
  • vs CityGuessr: CityGuessr 只做视频级城市预测,VidTAG 实现逐帧定位和轨迹映射

评分

  • 新颖性: ⭐⭐⭐⭐ 首个全球尺度帧级视频地理定位方法
  • 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多指标、多基线对比
  • 写作质量: ⭐⭐⭐⭐ 问题定义和方法描述清晰
  • 价值: ⭐⭐⭐⭐ 在取证、社交媒体等领域有实际应用

相关论文