VidTAG: Temporally Aligned Video to GPS Geolocalization¶
会议: CVPR 2026
arXiv: 2604.12159
代码: https://parthpk.github.io/vidtag_webpage
领域: 视频理解 / 地理定位
关键词: 视频地理定位, 帧到GPS检索, 时间一致性, 轨迹预测, 去噪
一句话总结¶
提出 VidTAG,一个双编码器(CLIP+DINOv2)帧到GPS检索框架,通过 TempGeo 模块实现帧间时间对齐,GeoRefiner 编码器-解码器模块精炼GPS预测,在全球尺度下实现时间一致的逐帧视频地理定位。
研究背景与动机¶
领域现状:图像地理定位主要有分类(划分地球区域预测标签)和检索(匹配地理参考图库)两种范式,GeoCLIP 将图像和GPS嵌入共享空间实现直接GPS检索。
现有痛点:现有分类方法只能提供粗粒度的城市级定位;图像检索方法需要庞大的图片库,在全球尺度不可行。对于视频,逐帧应用图像方法会产生"抖动"轨迹,最坏情况下预测路径会跨越大洲。唯一的全球视频方法 CityGuessr 在整个视频级别推理,不支持逐帧定位。
核心矛盾:如何在全球尺度下获得精确且时间一致的逐帧轨迹。
本文目标:(1) 提出帧到GPS检索的新范式;(2) 解决视频预测的时间不一致性问题。
切入角度:构建GPS坐标库(而非图像库)是简单且廉价的,帧到GPS检索在全球尺度下可行。
核心 idea:用 TempGeo 进行帧间时间对齐 + GeoRefiner 去噪式精炼,实现时间一致的逐帧GPS预测。
方法详解¶
整体框架¶
两阶段训练:Phase I 通过对比学习训练双帧编码器(CLIP+DINOv2)+ TempGeo + 位置编码器;Phase II 固定 Phase I,训练 GeoRefiner 编码器-解码器去噪精炼 GPS 预测。推理时帧通过双编码器和 TempGeo 生成嵌入,初始检索 GPS 预测后经 GeoRefiner 精炼。
关键设计¶
-
双帧编码器 (CLIP + DINOv2):
- 功能:为每帧生成语义和视觉互补的描述
- 核心思路:CLIP 提供语言对齐语义(消歧地标、标牌、场景),DINOv2 提供鲁棒的自监督特征(全局外观,对域偏移不敏感)。两者的 CLS token 拼接为帧表示 \(\mathbf{z}_t = [\mathbf{f}_{clip} \| \mathbf{f}_{dino}]\)
- 设计动机:CLIP 强于语义理解,DINOv2 强于视觉描述,互补结合有利于帧到GPS检索
-
TempGeo 时间对齐模块:
- 功能:通过帧间注意力实现时间一致的帧嵌入
- 核心思路:轻量 Transformer 编码器对所有帧做全自注意力,添加时间位置编码。不确定或模糊的帧可借用相邻和远距帧的上下文信息,孤立的异常预测被拉向共识
- 设计动机:区别于后处理平滑,TempGeo 在检索前就进行时间对齐,使跨帧上下文直接塑造学习信号
-
GeoRefiner 去噪精炼模块:
- 功能:通过编码器-解码器架构精炼GPS序列预测
- 核心思路:编码器处理 TempGeo 输出的帧嵌入,解码器接收GPS嵌入作为查询,通过交叉注意力将GPS序列与视觉 token 对齐。训练时对真值GPS坐标注入仿真噪声(模拟 Phase I 的典型失败模式:序列偏移、坍塌、随机抖动),解码器学习利用视觉上下文去噪
- 设计动机:Phase I 的帧级预测仍有噪声,GeoRefiner 在GPS域进行同域检索精炼
损失函数 / 训练策略¶
Phase I:对比损失(帧嵌入与GPS嵌入的相似度矩阵 vs 单位矩阵的交叉熵)。Phase II:加权 Hinge 损失,同时优化帧级和视频级对齐。
实验关键数据¶
主实验¶
| 模型 | 帧@1km↑ | 帧@5km↑ | 帧中位误差↓ | 视频@1km↑ | DFD↓ | MRD↓ |
|---|---|---|---|---|---|---|
| GeoCLIP-ZS | 2.7% | 22.9% | 11.54km | 3.8% | 24.94 | 2.83 |
| GeoCLIP-FT | 22.5% | 63.0% | 2.97km | 18.6% | 22.52 | 2.82 |
| DINOv2-Cls | 18.1% | 58.2% | 3.86km | 18.4% | 4.28 | 1.60 |
| VidTAG | 41.0% | 76.7% | 1.35km | 39.8% | 3.87 | 1.07 |
消融实验¶
| 配置 | @1km | 中位误差 | DFD |
|---|---|---|---|
| 仅 CLIP | 32.5% | 1.85km | 8.42 |
| 仅 DINOv2 | 28.3% | 2.15km | 5.12 |
| 双编码器 | 35.2% | 1.62km | 6.78 |
| + TempGeo | 38.1% | 1.48km | 4.25 |
| + GeoRefiner (完整) | 41.0% | 1.35km | 3.87 |
关键发现¶
- VidTAG 在 MSLS 上 @1km 超过 GeoCLIP 20 个百分点,在 CityGuessr68k 上超过 SOTA 25%
- TempGeo 和 GeoRefiner 对轨迹质量(DFD、MRD)的改善最为显著
- 双编码器的互补性通过消融得到验证
亮点与洞察¶
- 帧到GPS检索是一个优雅的问题重构:GPS库构建简单廉价,使全球尺度逐帧定位成为可能
- GeoRefiner 的去噪训练策略很巧妙:注入仿真噪声而非直接用 Phase I 预测,避免了训练-推理分布不匹配
局限与展望¶
- 依赖均匀网格GPS库,库分辨率直接影响精度上限
- 在地理覆盖稀疏的区域效果可能下降
- 未利用 OCR 等额外信息(路牌、文字)
- 可结合多模态大语言模型进一步推理地理线索
相关工作与启发¶
- vs GeoCLIP: GeoCLIP 仅做图像级,VidTAG 扩展到视频帧级并解决时间一致性
- vs CityGuessr: CityGuessr 只做视频级城市预测,VidTAG 实现逐帧定位和轨迹映射
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个全球尺度帧级视频地理定位方法
- 实验充分度: ⭐⭐⭐⭐⭐ 多数据集、多指标、多基线对比
- 写作质量: ⭐⭐⭐⭐ 问题定义和方法描述清晰
- 价值: ⭐⭐⭐⭐ 在取证、社交媒体等领域有实际应用
相关论文¶
- [CVPR 2026] Temporally Consistent Long-Term Memory for 3D Single Object Tracking
- [CVPR 2025] FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video
- [ICCV 2025] ResidualViT for Efficient Temporally Dense Video Encoding
- [ICCV 2025] Factorized Learning for Temporally Grounded Video-Language Models
- [ICCV 2025] TOGA: Temporally Grounded Open-Ended Video QA with Weak Supervision