VidTAG: Temporally Aligned Video to GPS Geolocalization¶

会议: CVPR 2026
arXiv: 2604.12159
代码: https://parthpk.github.io/vidtag_webpage
领域: 视频理解 / 地理定位
关键词: 视频地理定位, 帧到GPS检索, 时间一致性, 轨迹预测, 去噪

一句话总结¶

提出 VidTAG，一个双编码器（CLIP+DINOv2）帧到GPS检索框架，通过 TempGeo 模块实现帧间时间对齐，GeoRefiner 编码器-解码器模块精炼GPS预测，在全球尺度下实现时间一致的逐帧视频地理定位。

研究背景与动机¶

领域现状：图像地理定位主要有分类（划分地球区域预测标签）和检索（匹配地理参考图库）两种范式，GeoCLIP 将图像和GPS嵌入共享空间实现直接GPS检索。

现有痛点：现有分类方法只能提供粗粒度的城市级定位；图像检索方法需要庞大的图片库，在全球尺度不可行。对于视频，逐帧应用图像方法会产生"抖动"轨迹，最坏情况下预测路径会跨越大洲。唯一的全球视频方法 CityGuessr 在整个视频级别推理，不支持逐帧定位。

核心矛盾：如何在全球尺度下获得精确且时间一致的逐帧轨迹。

本文目标：(1) 提出帧到GPS检索的新范式；(2) 解决视频预测的时间不一致性问题。

切入角度：构建GPS坐标库（而非图像库）是简单且廉价的，帧到GPS检索在全球尺度下可行。

核心 idea：用 TempGeo 进行帧间时间对齐 + GeoRefiner 去噪式精炼，实现时间一致的逐帧GPS预测。

方法详解¶

整体框架¶

两阶段训练：Phase I 通过对比学习训练双帧编码器（CLIP+DINOv2）+ TempGeo + 位置编码器；Phase II 固定 Phase I，训练 GeoRefiner 编码器-解码器去噪精炼 GPS 预测。推理时帧通过双编码器和 TempGeo 生成嵌入，初始检索 GPS 预测后经 GeoRefiner 精炼。

关键设计¶

双帧编码器 (CLIP + DINOv2):
- 功能：为每帧生成语义和视觉互补的描述
- 核心思路：CLIP 提供语言对齐语义（消歧地标、标牌、场景），DINOv2 提供鲁棒的自监督特征（全局外观，对域偏移不敏感）。两者的 CLS token 拼接为帧表示 \(\mathbf{z}_t = [\mathbf{f}_{clip} \| \mathbf{f}_{dino}]\)
- 设计动机：CLIP 强于语义理解，DINOv2 强于视觉描述，互补结合有利于帧到GPS检索
TempGeo 时间对齐模块:
- 功能：通过帧间注意力实现时间一致的帧嵌入
- 核心思路：轻量 Transformer 编码器对所有帧做全自注意力，添加时间位置编码。不确定或模糊的帧可借用相邻和远距帧的上下文信息，孤立的异常预测被拉向共识
- 设计动机：区别于后处理平滑，TempGeo 在检索前就进行时间对齐，使跨帧上下文直接塑造学习信号
GeoRefiner 去噪精炼模块:
- 功能：通过编码器-解码器架构精炼GPS序列预测
- 核心思路：编码器处理 TempGeo 输出的帧嵌入，解码器接收GPS嵌入作为查询，通过交叉注意力将GPS序列与视觉 token 对齐。训练时对真值GPS坐标注入仿真噪声（模拟 Phase I 的典型失败模式：序列偏移、坍塌、随机抖动），解码器学习利用视觉上下文去噪
- 设计动机：Phase I 的帧级预测仍有噪声，GeoRefiner 在GPS域进行同域检索精炼

损失函数 / 训练策略¶

Phase I：对比损失（帧嵌入与GPS嵌入的相似度矩阵 vs 单位矩阵的交叉熵）。Phase II：加权 Hinge 损失，同时优化帧级和视频级对齐。

实验关键数据¶

主实验¶

模型	帧@1km↑	帧@5km↑	帧中位误差↓	视频@1km↑	DFD↓	MRD↓
GeoCLIP-ZS	2.7%	22.9%	11.54km	3.8%	24.94	2.83
GeoCLIP-FT	22.5%	63.0%	2.97km	18.6%	22.52	2.82
DINOv2-Cls	18.1%	58.2%	3.86km	18.4%	4.28	1.60
VidTAG	41.0%	76.7%	1.35km	39.8%	3.87	1.07

消融实验¶

配置	@1km	中位误差	DFD
仅 CLIP	32.5%	1.85km	8.42
仅 DINOv2	28.3%	2.15km	5.12
双编码器	35.2%	1.62km	6.78
+ TempGeo	38.1%	1.48km	4.25
+ GeoRefiner (完整)	41.0%	1.35km	3.87

关键发现¶

VidTAG 在 MSLS 上 @1km 超过 GeoCLIP 20 个百分点，在 CityGuessr68k 上超过 SOTA 25%
TempGeo 和 GeoRefiner 对轨迹质量（DFD、MRD）的改善最为显著
双编码器的互补性通过消融得到验证

亮点与洞察¶

帧到GPS检索是一个优雅的问题重构：GPS库构建简单廉价，使全球尺度逐帧定位成为可能
GeoRefiner 的去噪训练策略很巧妙：注入仿真噪声而非直接用 Phase I 预测，避免了训练-推理分布不匹配

局限与展望¶

依赖均匀网格GPS库，库分辨率直接影响精度上限
在地理覆盖稀疏的区域效果可能下降
未利用 OCR 等额外信息（路牌、文字）
可结合多模态大语言模型进一步推理地理线索

评分¶

新颖性: ⭐⭐⭐⭐ 首个全球尺度帧级视频地理定位方法
实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多指标、多基线对比
写作质量: ⭐⭐⭐⭐ 问题定义和方法描述清晰
价值: ⭐⭐⭐⭐ 在取证、社交媒体等领域有实际应用