Sky2Ground: A Benchmark for Site Modeling under Varying Altitude¶

日期: 2026-03-14
arXiv: 2603.13740
代码: 即将开源
领域: 3D视觉 / 跨视角定位
关键词: cross-view localization, satellite-aerial-ground, 3D reconstruction, benchmark, site modeling

一句话总结¶

构建 Sky2Ground 跨高度场景建模 benchmark（51 个地理站点、80k 张图像，覆盖卫星/航拍/地面三种视角），提出 SkyNet 双流架构在 GAS 设置下 RRA@5 达 83.2%（+9.6%），平均指标 65.1（VGGT 零样本 52.9），消融显示 MSA 贡献 +8.2%、P-VS 贡献 +7.3%。

研究背景与动机¶

领域现状: 跨视角定位（地面↔卫星/航拍）在自动驾驶和地理建模中至关重要，SfM（COLMAP）和前馈模型（DUSt3R/MASt3R/VGGT）已取得进展
数据缺失: 现有数据集仅覆盖一两种视角——nuScenes/KITTI-360 仅地面，Aerial-MegaDepth 缺卫星，MatrixCity 仅合成地面+航拍，没有同时涵盖三种视角的数据集
核心发现: 实验发现 VGGT 加入卫星图像后性能暴跌（零样本 RRA 52.9 vs 微调后仅 47.8），简单微调不仅无效还有害——极端视角差异引起的分布偏移是根本问题
本文切入: 数据+模型双贡献——构建三视角统一 benchmark + 设计 SkyNet 双流架构以航拍作为地面-卫星间的"桥梁"

方法详解¶

整体框架¶

Sky2Ground 数据集构建 → 现有方法 benchmark 发现瓶颈 → SkyNet 双流编码器（GAS-Encoder + Sat-Encoder）+ 课程训练策略 → 统一位姿+深度预测。

关键设计¶

Sky2Ground 数据集:
- 51 个地理站点，全球分布，共 80k+ 张图像
- 每站点: 卫星 120 张（1-2km，正射校正）、航拍 1080 张（三机位螺旋 200-800m）、地面 50-250 合成 + 120 真实
- COLMAP PatchMatch Stereo 生成稠密深度图和相机内外参
- 首个同时包含合成+真实图像的三视角数据集
SkyNet 双流架构:
- GAS-Encoder: 处理所有模态，内置 Masked-Satellite-Attention（MSA）——阻止地面/航拍 token 与卫星交互，但卫星 token 可读取地面/航拍信息。保护 VGGT 在地面/航拍上的零样本性能
- Sat-Encoder: 独立 DINO 编码卫星图像 + 全局自注意力，接收 GAS-Encoder 精炼的卫星特征 \(z = z + v_s\)（加法优于交叉注意力，65.1 vs 59.7）
- 共享 Camera/Depth Head 统一预测所有视角
课程训练策略:
- CA-CS（Curriculum-Aware Camera Sampling）: 用 \(D(I_1, I_2) = d_R + \lambda_t d_T\) 预计算相机距离，初期采样近相机，逐步过渡到远距离/无重叠相机
- P-VS（Progressive View Sampling）: 初期大量航拍（\(N_a \approx N\)）作为桥梁，末期仅留地面+卫星（\(N_a \approx 0\)），让模型渐进适应极端视角差异

实验关键数据¶

主实验（GAS 设置）¶

方法	设置	Avg RRA@5	Avg RTA@5	Sat RRA@5
VGGT	零样本	73.6	44.5	66.6
VGGT	微调 Sky2Ground	55.4(-18.2)	43.6	86.6
MASt3R	微调	—	—	—
SkyNet	Sky2Ground	83.2(+9.6)	66.5(+22.0)	88.9

消融实验¶

配置	Avg 指标	相对 VGGT-ZS
VGGT 零样本	52.9	baseline
VGGT 微调	47.8	-5.1
SkyNet (无 MSA/CA-CS/P-VS)	53.1	+0.2
+ MSA	62.7	+8.2
+ P-VS	61.1	+7.3
+ CA-CS	54.3	+1.4
全部组合	65.1	+12.2
VGGT 增加 24 层（参数匹配）	50.4	-2.5

关键发现¶

MSA 是最关键组件（+8.2）: 隔离卫星 token 防止其干扰地面/航拍特征学习
P-VS 贡献第二大（+7.3）: 航拍作为"桥梁"的渐进策略远优于直接混合训练
单纯增加参数（24 层 VGGT）达 50.4 仍低于零样本 52.9——证明改善来自架构设计而非参数量
交叉注意力融合卫星特征（59.7）不如简单加法（65.1），表明 V 域特征直接相加更稳健

亮点与洞察¶

微调反而有害的反直觉发现非常有价值: 揭示了跨极端视角的分布偏移问题，简单数据增加不等于性能提升
MSA 的单向注意力掩码设计巧妙: 卫星可读取地面/航拍信息（获得上下文），但不污染地面/航拍的表示
课程学习从"容易"（有航拍桥梁）到"困难"（仅地面+卫星）的思路可推广到其他极端分布差异任务

局限性 / 可改进方向¶

两阶段流程（先估位姿再 Gaussian Splatting 渲染），未来可探索统一模型
51 个站点虽覆盖全球但规模仍有限，城市偏重
仅评估了低级 3D 指标，未评估下游应用（如导航、地理定位搜索）

评分¶

新颖性: ⭐⭐⭐⭐ 首个三视角跨高度定位 benchmark + 双流架构
实验充分度: ⭐⭐⭐⭐⭐ 多方法对比 + 详细消融 + 10 站点标准差
写作质量: ⭐⭐⭐⭐ 问题动机清晰，实验发现有说服力
价值: ⭐⭐⭐⭐ 对大规模跨高度 3D 感知和行星级重建有推动作用

消融实验（Table 6，Avg = (RRA@5+RTA@5)/2）¶

配置	MSA	CA-CS	P-VS	Avg
VGGT-ZS Baseline	✗	✗	✗	52.9
+ 双流	✗	✗	✗	53.8 (+0.9)
+ MSA	✓	✗	✗	62.7 (+8.2)
+ MSA + P-VS	✓	✗	✓	64.9 (+12.0)
Full SkyNet	✓	✓	✓	65.1 (+12.2)

关键发现¶

卫星图像对单次前向模型危害巨大：VGGT 微调后 RRA 从 73.6 暴跌至 55.4，但 DUSt3R/MASt3R 反而提升（成对处理的归纳偏置帮助匹配卫星共有点）
加入真实图像降低渲染质量：合成数据 2DGS PSNR=14.9 → 混合真实后降至 13.9（domain gap）
MSA 是最关键设计（+8.2），P-VS 次之（+3.8），CA-CS 贡献较小（+0.7）

亮点与洞察¶

航拍作为桥梁的设计直觉新颖——通过 P-VS 从"易（航拍多）→ 难（仅地面+卫星）"渐进训练
MSA 的非对称设计巧妙：卫星可以读取地面/航拍信息，反之不行，避免分布漂移

局限性 / 可改进方向¶

合成-真实 domain gap 仍严重，混合训练效果差
仅 51 个站点，城市场景为主，自然场景泛化待验证
卫星正射校正是预处理步骤，端到端解决更优

评分¶

新颖性: ⭐⭐⭐⭐ MSA 非对称注意力 + 课程训练策略设计有巧思
实验充分度: ⭐⭐⭐⭐ 多方法对比 + 多视角组合 + 详细消融
写作质量: ⭐⭐⭐⭐ 分析充分，问题驱动的写作结构清晰
价值: ⭐⭐⭐⭐ 填补三视角统一 benchmark 空白，SkyNet 提供可行基线

Sky2Ground: A Benchmark for Site Modeling under Varying Altitude¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验（GAS 设置）¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

消融实验（Table 6，Avg = (RRA@5+RTA@5)/2）¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶