ICCV 2025 自动驾驶 Cross-View Geo-localization Natural Language Text-to-Image Retrieval Satellite OSM LMM Explainable Retrieval

Where am I? Cross-View Geo-localization with Natural Language Descriptions¶

会议: ICCV 2025
arXiv: 2412.17007
代码: yejy53.github.io/CVG-Text
领域: Autonomous Driving / 跨视角地理定位
关键词: Cross-View Geo-localization, Natural Language, Text-to-Image Retrieval, Satellite, OSM, LMM, Explainable Retrieval

一句话总结¶

引入基于自然语言描述的跨视角地理定位新任务，构建覆盖3个城市3万+坐标的CVG-Text多模态数据集（街景+卫星+OSM+文本），并提出CrossText2Loc方法——通过扩展位置嵌入处理长文本和可解释检索模块提供定位理由，Top-1召回率提升超10%。

研究背景与动机¶

问题场景¶

在GPS信号受干扰的场景（城市高楼遮挡、室内-室外过渡、紧急呼叫等），用户需要通过自然语言描述周围环境来确定位置。例如： - 出租车乘客用语言告诉司机自己的位置 - 行人在紧急电话中描述周围环境供救援定位

现有方法的局限¶

跨视角定位聚焦图像匹配：Sample4G、SAFA等方法专注于街景图像到卫星图像的检索，但现实中用户可能只能提供文字描述

文本定位局限于点云：Text2Pose、Text2Loc等在3D点云中做文本定位，但点云获取成本高、存储开销大，难以全球规模部署

卫星/OSM数据更实用：卫星图像和OpenStreetMap具有全球覆盖、存储成本低的优势，但文本到卫星/OSM的跨视角检索此前未被研究

长文本处理不足：场景描述通常较长（平均126 tokens），而CLIP等模型固定最大序列长度77 tokens，会截断关键信息

方法详解¶

CVG-Text数据集构建¶

数据收集¶

覆盖3个城市：纽约（城市）、布里斯班（郊区）、东京（城市）
30,000+坐标点，每点包含：
- 全景街景图像（2048×1024）和单视角街景
- 卫星图像（512×512，zoom level 20，分辨率~0.12m）
- OSM栅格瓦片（512×512，保留POI标识）

GPT-4o驱动的文本生成¶

采用渐进式场景分析策略：

OCR预处理：PaddleOCR提取街景中的文字信息（店名、公交站牌等），帮助GPT精确捕获关键定位线索，减少幻觉
开放世界分割：对街景图像进行语义分割，提供位置和语义细节；同时过滤移动物体（如车辆）上的OCR结果
系统化提示：引导GPT-4o按"道路特征→建筑标识→整体环境"的顺序渐进描述，使用前后左右等简单方向词
质量控制：格式过滤→GPT自查→人工专家审核（20%样本，10人×100小时，通过率77.6%）

文本统计：平均长度126 tokens，词汇丰富度（TTR）0.76，文本间相似度低（0.17），高质量。

CrossText2Loc模型¶

图像-文本对比学习¶

双流架构：文本编码器+视觉编码器，通过对比学习对齐跨域特征：

\[L_{itc} = \sum_{i=1}^n \sum_{j=1}^n -\log\frac{\exp(\text{sim}(v_i, t_j)/\tau)}{\sum_{k=1}^n \exp(\text{sim}(v_i, t_k)/\tau)}\]

其中 \(\tau\) 为可学习温度参数。

扩展位置嵌入（Extended Positional Embedding, EPE）¶

场景描述平均126 tokens，但CLIP限制77 tokens。通过线性插值扩展位置嵌入到 \(N=300\) tokens：

\[P^*(x) = (1-(x-\lfloor x\rfloor)) \cdot P(\lfloor x\rfloor) + (x-\lfloor x\rfloor) \cdot P(\lceil x\rceil)\]

与LongCLIP不同，由于GPT生成的文本开头没有突出的短标题，采用全文插值而非知识保持拉伸。

可解释检索模块（ERM）¶

推理时的可选模块，提升检索的可解释性和可信度：

注意力热力图生成：从起始层 \(s\) 到输出层 \(L\) 迭代累积非负梯度贡献：

\[R^{(l)} = R^{(l-1)} + \frac{1}{H}\sum_{h=1}^H \max(0, \nabla A_h^{(l)} \odot A_h^{(l)}) R^{(l-1)}\]

LMM解释：将文本和图像热力图输入GPT-4o，分析关键线索→比较推理→输出检索理由和置信度
置信度重排：将ERM置信度与相似度分数归一化求和重排Top-5结果

实验¶

主实验：跨视角文本检索定位¶

方法	纽约-卫星R@1	纽约-OSM R@1	布里斯班-卫星R@1	布里斯班-OSM R@1	东京-卫星R@1	东京-OSM R@1
CLIP-L/14	35.08	31.50	34.08	32.50	28.08	21.00
SigLIP-SO400M	33.50	27.75	34.25	29.75	28.42	17.50
BLIP	34.58	52.92	34.50	43.00	29.75	30.67
Ours (w/o ERM)	46.25	59.08	43.58	46.08	36.83	34.33
Ours (w/ ERM)	50.33	62.33	47.58	48.75	41.75	36.92

关键发现： - CrossText2Loc比最强基线BLIP在卫星检索上提升15.75%（纽约），在OSM检索上提升9.41% - ERM重排进一步提升4-5% R@1，模拟了用户根据理由做决策的过程 - 纽约OSM效果最好（丰富的POI数据如公交站、店名），东京最差（CLIP对日文预训练不足）

消融实验：EPE模块效果¶

方法	卫星R@1	OSM R@1
CLIP	35.08	31.50
CLIP + EPE	46.25	59.08
SigLIP	19.67	20.17
SigLIP + EPE	29.50	45.25

EPE在两种编码器上均带来显著提升，OSM检索提升尤为突出（+27.6%），证明长文本中的细节信息对POI匹配至关重要。

消融实验：文本生成质量对比¶

文本来源	Len	TTR	Simi.	R@1-OSM	R@1-Sat
直接GPT生成	108	0.74	0.22	25.17	38.00
CVG-Text（OCR+分割+提示链）	126	0.76	0.17	59.08	46.25

OCR辅助精确捕获街景文字→GPT减少幻觉→OSM检索提升33.9%。

跨视角检索的文本增强¶

查询方式	OSM R@1	卫星R@1
仅街景图像(Sample4G)	27.10	91.70
仅文本	59.08	46.25
图像+文本融合	67.30	98.40

文本分支为传统跨视角检索提供互补信息，OSM检索提升40.2%。

亮点与洞察¶

新任务定义：首次提出用自然语言描述进行跨视角地理定位，填补了文本→卫星/OSM检索的研究空白
高质量数据集：CVG-Text通过OCR+分割+GPT-4o的渐进式管线，生成了比直接GPT生成质量高得多的场景描述
长文本处理：EPE用简单的线性插值扩展位置嵌入，但OSM检索提升27.6%，证明场景描述中的细节不容忽视
可解释检索：ERM不仅提供相似度分数，还给出自然语言检索理由和置信度——模拟了用户在实际应用中的决策过程
实用价值明确：文本检索可与图像检索互补，融合后卫星检索R@1达98.4%

局限性¶

文本描述由GPT-4o生成，与真实用户的描述习惯有差距（真实用户描述更简短、更模糊）
仅覆盖3个城市，地域多样性有限，不同地区的街景风格差异未充分考虑
ERM依赖GPT-4o进行推理解释，增加推理成本和延迟
东京性能较差暴露了CLIP在非英语场景下的局限性
检索范围 \(M=100\)（约10 km²），大范围检索的可扩展性需验证

评分¶

新颖性：⭐⭐⭐⭐⭐（开创性地定义文本到卫星/OSM的跨视角定位任务）
技术深度：⭐⭐⭐⭐（EPE简洁有效，ERM增加可解释性，但方法整体偏工程）
实验完整度：⭐⭐⭐⭐（多城市、多数据源、多消融，但缺少与其他文本定位方法的对比）
实用价值：⭐⭐⭐⭐⭐（紧急定位、行人导航等场景需求明确）
总体推荐：⭐⭐⭐⭐（新任务+新数据集的完整工作，有望开辟新研究方向）