Sky2Ground: A Benchmark for Site Modeling under Varying Altitude¶

会议: CVPR 2026
arXiv: 2603.13740
代码: 即将公开
领域: 3D视觉 / 跨视角定位
关键词: 跨视角定位, 卫星-航拍-地面, 多海拔3D重建, 高斯溅射, 课程学习

一句话总结¶

本文提出Sky2Ground数据集（51个场景，80k图像，统一覆盖卫星/航拍/地面三种视角的合成+真实图像）和SkyNet模型（双流编码器+掩码卫星注意力+渐进式视角采样），首次系统研究了跨地面/航拍/卫星三视角联合相机定位问题，在RRA@5上提升9.6%，在RTA@5上提升18.1%。

研究背景与动机¶

领域现状：多视角3D重建和相机定位是计算机视觉的基础任务。近年来DUSt3R、MASt3R、VGGT等基于神经网络的方法取得了显著进展，但主要在地面-航拍视角上训练和评估。
现有痛点：(1) 缺乏同时包含地面、航拍、卫星三种视角的数据集——nuScenes/KITTI只有地面视角，AerialMegaDepth缺少卫星，MatrixCity/BungeeNeRF仅有合成数据；(2) 没有研究过三视角联合相机定位问题；(3) 卫星图像与地面/航拍图像之间存在巨大的分布偏移。
核心矛盾：卫星图像提供全局一致的地理覆盖和稳定参考，但与地面/航拍视角的视觉差异极大（近正交视角、千米级高度差）。直觉上加入卫星应该提供更多信息，但实验发现反而损害了定位性能。
本文目标 (1) 构建首个覆盖三种视角+真实/合成图像的数据集；(2) 分析为什么卫星图像会损害现有模型性能；(3) 提出能有效利用卫星信息的新架构。
切入角度：作者发现简单微调VGGT加入卫星数据会导致性能暴跌18.2%，但DUSt3R/MASt3R这类逐对处理的网络反而能受益。这说明问题不在于分布偏移本身，而在于全局注意力架构让地面/航拍token与卫星token交互时受到了干扰。
核心 idea：通过掩码卫星注意力阻止地面/航拍token直接关注卫星token，并用渐进式采样策略逐步引入更远视角，实现跨海拔联合定位。

方法详解¶

整体框架¶

SkyNet基于VGGT构建，采用双流编码器架构：GAS编码器处理所有视角的联合表示（但限制地面/航拍与卫星的注意力交互），Sat编码器专门处理卫星图像。两个编码器通过卫星特征的加法融合连接。最终通过共享的Camera Head和DPT Head分别预测相机参数和深度图。

关键设计¶

Sky2Ground数据集:
- 功能：提供首个覆盖卫星/航拍/地面三视角的多模态数据集
- 核心思路：51个地理位置（覆盖全球），每个场景包含120张卫星图（1-2km高度，正射校正）、1080张合成航拍图（使用三相机虚拟设备沿螺旋轨迹下降，250-800m高度）、50-250张合成地面图、各120张真实航拍/地面图（从Google Maps和YouTube旅游视频手动搜集）。使用Google Earth Studio渲染合成数据，COLMAP生成稠密深度图标注
- 设计动机：真实图像引入光照变化、天气噪声等，合成图像提供精确的相机pose和深度标注，两者互补
掩码卫星注意力(MSA):
- 功能：防止地面/航拍token被卫星token的异质分布干扰
- 核心思路：在GAS编码器的每个block中，先执行标准自注意力（帧内），然后执行MSA：卫星token可以关注地面/航拍token，但地面/航拍token被禁止关注卫星token。注意力掩码矩阵在卫星→地面/航拍方向设为\(-\infty\)。GAS编码器的自注意力和MSA层用预训练的VGGT权重初始化并冻结
- 设计动机：实验表明VGGT微调后性能暴跌是因为全局注意力让地面/航拍特征被卫星特征"污染"。MSA保留了VGGT在地面/航拍上的零样本能力（因为这些token永不与卫星交互），同时让卫星token从地面/航拍token中获取信息
渐进式视角采样(P-VS):
- 功能：通过课程学习策略逐步增加训练难度
- 核心思路：训练初期采样更多航拍图像（\(N_a \approx N\)），作为地面和卫星之间的"桥梁"。随着训练推进，逐步减少航拍图像比例（\(N_a \approx 0\)），最终只保留地面和卫星图像。这使模型从简单问题（三视角联合定位）逐步过渡到困难问题（仅地面+卫星定位）
- 设计动机：地面和卫星是极端视角对，直接联合训练困难太大。航拍视角可以作为中间"桥梁"，先建立地面-航拍-卫星的渐进关联

损失函数 / 训练策略¶

多任务损失 \(\mathcal{L} = \mathcal{L}_{\text{cam, sat}} + 0.4 \cdot \mathcal{L}_{\text{cam, gnd/aerial}} + \mathcal{L}_{\text{depth}}\)。另外有Curriculum Aware Camera-Sampling(CA-CS)策略：训练初期采样距离近的相机对，逐步扩展到远距离相机对，距离度量为旋转距离+0.5×平移距离。

实验关键数据¶

主实验（GAS设置，RRA@5 / RTA@5 %）¶

方法	训练数据	Ground RRA/RTA	Sat RRA/RTA	Aerial RRA/RTA	平均RRA/RTA
VGGT	零样本	75.1/60.9	66.6/0.0	79.2/72.6	73.6/44.5
VGGT	Sky2Ground	50.0/46.1	86.6/53.3	29.7/31.5	55.4/43.6
SkyNet	Sky2Ground	76.7/64.2	88.9/57.3	84.0/78.1	83.2/66.5

消融实验（G+S设置）¶

配置	MSA	CA-CS	P-VS	平均性能
VGGT微调	✗	✗	✗	47.8
VGGT零样本	✗	✗	✗	52.9
+MSA	✓	✗	✗	62.7 (+8.2)
+P-VS	✗	✗	✓	61.1 (+7.3)
+MSA+CA-CS+P-VS	✓	✓	✓	65.1 (+12.2)

关键发现¶

微调VGGT加卫星反而严重退化：RRA从73.6%跌至55.4%（-18.2%），这是核心发现
MSA是贡献最大的单一组件：+8.2%，因为它保护了地面/航拍特征不被卫星干扰
P-VS比CA-CS更有效：+7.3% vs +1.4%，说明"用航拍做桥梁"比"由近及远采样"更关键
逐对处理的网络能受益于卫星：DUSt3R/MASt3R加入卫星后性能提升，因为配对处理中卫星-卫星对的高共视率有利于全局对齐
真实图像损害渲染质量：加入真实图像后PSNR一致下降，域差距导致GS难以混合两种来源
2DGS始终优于3DGS：在所有视角和密度下，2D高斯溅射的感知质量更好

亮点与洞察¶

"加数据反而变差"的反直觉发现极具启发性：加入卫星——这一在信息论上更丰富的数据源——反而损害性能，说明当分布偏移足够大时，更多数据不等于更好结果。这挑战了"scale everything"的思维
MSA的设计思路可广泛迁移：任何涉及异质模态（如文本+图像、RGB+热成像）的Transformer架构中，如果某种模态的分布差异太大，可以用非对称注意力掩码来规避干扰
航拍作为"桥梁模态"的课程学习：这种从中间模态逐步过渡到极端模态的训练策略，可以推广到任何多模态对齐任务

局限与展望¶

方法是两阶段的（先预测pose，再高斯溅射），未来可探索统一模型
51个场景对于大规模训练可能不足
卫星图像的正射校正依赖额外处理
真实图像的pose通过COLMAP估计，精度有限
未探索更先进的域适应技术来弥合合成-真实差距

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究三视角联合定位，MSA和P-VS设计有创意
实验充分度: ⭐⭐⭐⭐⭐ 涵盖定位和渲染两大任务，多种baseline对比，详细的消融
写作质量: ⭐⭐⭐⭐ 分析深入，反直觉发现表述清晰
价值: ⭐⭐⭐⭐ 数据集和benchmark对跨视角定位领域有重要价值