Adapting Fine-Grained Cross-View Localization to Areas without Fine Ground Truth¶

会议: ECCV 2024
arXiv: 2406.00474
代码: 无公开代码
领域: 视觉定位 / 跨视角地理定位 / 无监督域适应
关键词: cross-view localization, knowledge self-distillation, pseudo ground truth, domain adaptation, weakly-supervised learning

一句话总结¶

针对细粒度跨视角定位模型在新区域部署时精度下降的问题，提出基于知识自蒸馏的弱监督学习方法——通过模式化伪GT生成、粗粒度监督和离群值过滤三个策略，仅使用目标区域的地面-航拍图像对（无需精确GT），即可在VIGOR和KITTI上将定位误差降低12%~20%。

背景与动机¶

细粒度跨视角定位旨在根据地面图像和对应的航拍图像，精确估计地面相机在航拍图像中的位置。现有SOTA方法（CCVPE、GGCVT等）通过coarse-to-fine的热图预测实现亚米级精度，但这些模型依赖训练区域的精确GT位置标注。当部署到新区域时，由于域差距（区域外观、建筑风格等差异），定位精度会显著下降。

现实中，获取新区域的精确GT标注（<2.5m误差）非常昂贵——标准GNSS在城市峡谷中误差可达数十米，而收集带有粗略位置的图像对却很容易。因此，如何利用目标区域中仅有粗略位置信息的图像来提升预训练模型的性能，是一个实际且重要的问题。

核心问题¶

如何在目标区域没有精确位置GT的条件下，提升已在源区域训练过的细粒度跨视角定位模型的跨区域性能？本质上是一个source-free无监督域适应问题，但与传统分类UDA不同，定位任务的输出是空间有序的热图，传统的熵最小化或基于熵的不确定性过滤方法并不适用。

方法详解¶

整体框架¶

输入：目标区域的地面-航拍图像对（无精确GT位置）和源区域预训练的teacher模型。输出：适配到目标区域的student模型。

流程分三步： 1. 伪GT生成：用teacher模型在目标图像上推理，生成模式化伪GT 2. 辅助student训练+离群值过滤：先训练一个辅助student，比较其与teacher的预测差异来识别不可靠样本 3. 最终student训练：用过滤后的可靠伪GT训练最终student模型

关键设计¶

模式化伪GT生成 (Mode-based Pseudo GT)：teacher模型在目标区域的输出热图往往是多模态的（即存在多个峰值），直接用多模态热图作为伪GT会将不确定性传递给student。本文提出只取热图的最高峰值（argmax）位置，以该点为中心生成高斯平滑的单模态伪GT：\(X(u,v) = \mathcal{N}((u,v) | y^\alpha, I_2 \sigma^2)\)，其中\(\sigma=4\)像素。这样将不确定的多模态监督信号转化为确定的单模态监督，减少噪声传播。
粗粒度监督 (Coarse-only Supervision)：CCVPE和GGCVT都有coarse-to-fine的多级热图输出。由于伪GT本身存在位置误差，用它去监督高分辨率层会放大噪声。本文利用下采样天然压制噪声的特性，只对student的前\(K'\)个低分辨率层计算损失（CCVPE: \(K'=2\)，GGCVT: \(K'=3\)），让高分辨率层通过模型自身的能力自然细化。
离群值过滤 (Outlier Filtering)：先用全部伪GT训练一个辅助student模型\(\mathcal{M}_o\)。观察发现：当teacher和辅助student的预测位置差异很大时，teacher的预测很可能是离群值。因此计算两者预测位置的L2距离\(d^{\alpha,o}\)，只保留距离最小的top-\(T\)%样本（CCVPE: \(T=80\%\)，GGCVT: \(T=70\%\)），用过滤后的数据训练最终student。

损失函数 / 训练策略¶

损失函数：加权InfoNCE损失，以伪GT热图\(P_k\)为权重：\(\mathcal{L}_k(H_k^\beta, P_k) = \frac{1}{\sum P_k} \sum_{m,n} P_k^{m,n} \cdot \mathcal{L}_{\text{infoNCE}}(H_k^\beta | (m,n))\)
仅对前\(K'\)个level求损失取平均
Student以teacher权重初始化，Adam优化器，学习率\(1 \times 10^{-4}\)
CCVPE batch=8, GGCVT batch=4
整体训练开销小：在VIGOR上CCVPE仅需额外约6小时（单V100 32GB）

实验关键数据¶

数据集	方法	指标	Teacher (baseline)	Student (本文)	提升
VIGOR (已知orientation)	CCVPE	Mean (m)	4.38	3.85	-12%
VIGOR (已知orientation)	CCVPE	Median (m)	1.76	1.57	-11%
VIGOR (未知orientation)	CCVPE	Mean (m)	5.35	4.27	-20%
VIGOR (未知orientation)	CCVPE	Median (m)	1.97	1.67	-15%
VIGOR (已知orientation)	GGCVT	Mean (m)	5.19	4.34	-16%
VIGOR (已知orientation)	GGCVT	Median (m)	1.39	1.32	-5%
KITTI	CCVPE	Long. Mean (m)	6.55	6.18	-6%
KITTI	GGCVT	Long. Mean (m)	9.27	8.56	-8%

Oracle（用精确GT微调）：CCVPE 2.31m / GGCVT 2.91m，说明方法虽不及全监督，但在无精确GT条件下效果显著。

消融实验要点¶

各组件贡献：GGCVT上，St-M-OF（纯蒸馏）5.34m > Teacher 5.16m（反而变差），+M后降到4.67m，+M+OF（完整方法）进一步降到4.28m。说明不加特殊设计的知识蒸馏在定位任务上可能适得其反。
离群值过滤比例\(T\)：最优为CCVPE 80%、GGCVT 70%，即过滤掉20%~30%的不可靠样本效果最好。过多过滤会导致过拟合。
监督层级\(K'\)：CCVPE \(K'=2\)最优，GGCVT \(K'=3\)（全部层级）最优。
伪GT类型：单模态伪GT优于直接使用teacher热图作为伪GT。
Entropy minimization完全失败：增大熵最小化权重只会增大定位误差，因为它只让热图更尖锐但无法纠正错误模式。
对比其它方法：双向融合伪标签（4.49m）和基于熵的离群过滤（CCVPE 4.17m / GGCVT 4.52m）均不如本文方法。
有噪声GT的监督微调：GT误差>2.5m/方向时，监督微调反而不如本文弱监督方法。

亮点¶

定位任务的域适应方法设计很有洞见：发现传统分类UDA（熵最小化、基于熵的不确定性过滤）不适用于空间有序的定位热图，针对性提出模式化伪GT和基于位置一致性的离群过滤。
离群值过滤策略简单但巧妙——通过比较teacher和辅助student的预测一致性来识别不可靠样本，不需要额外的不确定性估计。
粗粒度监督的insight：下采样天然压制位置噪声，避免噪声在高分辨率层被放大。
方法具有良好的通用性，应用于两个不同架构（CCVPE、GGCVT）在两个数据集上都一致有效。
t-SNE可视化显示student模型学到了更好的跨视角特征对齐。

局限性 / 可改进方向¶

Teacher需要"足够好"：当teacher在目标域预测接近随机（如跨数据集、不同传感器/分辨率），方法不适用。
仅处理区域域差距：不能处理传感器变化、分辨率变化等更大的域差距。
迭代只做一轮：辅助student→过滤→最终student，没有探索多轮迭代是否持续提升。
单帧定位：未利用序列信息，在重复纹理区域仍然困难。利用视频序列做时序投票可能进一步提升。
隐私风险：精确定位技术可能被滥用来追踪个人位置。

与相关工作的对比¶

vs. 传统UDA方法（熵最小化、对抗训练）：本文通过实验证明熵最小化在空间连续的定位输出上完全失败——它只能让热图更尖锐但不能纠正多模态中的错误模式。对抗训练未被实验，但本文的source-free设置让其不适用。
vs. Born-Again Networks / Best Teacher Distillation：直接搬用到定位任务会导致学生不如老师（GGCVT: 5.34m vs 5.16m），因为定位伪GT的噪声需要特殊处理。本文的模式化伪GT和离群过滤是关键。
vs. 基于不确定性的伪标签过滤：传统方法用熵来度量不确定性，但熵不考虑空间距离——两个模式间距1m和10m的热图可能有相同的熵，但后者导致的定位误差大得多。本文基于位置一致性的过滤更适合定位任务。

启发与关联¶

这篇论文的核心洞见——从分类到回归/定位的域适应需要重新设计——对其他空间预测任务（如3D检测、语义分割中的边界回归、深度估计）的域适应也有启发。
模式化伪GT的思想可以推广到任何多模态输出的自蒸馏场景。
离群值过滤中"teacher-student预测一致性"作为可靠性指标的思路，与半监督学习中的一致性正则有异曲同工之妙，值得在其他域适应任务中探索。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究跨视角定位的无GT域适应，各设计针对定位任务特点量身定做
实验充分度: ⭐⭐⭐⭐⭐ 两个模型×两个数据集，消融极其详尽（含entropy min、其它伪标签方案、噪声GT监督对比）
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，问题动机自然，每个设计都有充分的实验支撑
价值: ⭐⭐⭐⭐ 解决了实际部署中的关键痛点，方法通用且训练开销小