Sky2Ground: A Benchmark for Site Modeling under Varying Altitude¶
日期: 2026-03-14
arXiv: 2603.13740
代码: 即将开源
领域: 3D视觉 / 跨视角定位
关键词: cross-view localization, satellite-aerial-ground, 3D reconstruction, benchmark, site modeling
一句话总结¶
构建 Sky2Ground 跨高度场景建模 benchmark(51 个地理站点、80k 张图像,覆盖卫星/航拍/地面三种视角),提出 SkyNet 双流架构在 GAS 设置下 RRA@5 达 83.2%(+9.6%),平均指标 65.1(VGGT 零样本 52.9),消融显示 MSA 贡献 +8.2%、P-VS 贡献 +7.3%。
研究背景与动机¶
- 领域现状: 跨视角定位(地面↔卫星/航拍)在自动驾驶和地理建模中至关重要,SfM(COLMAP)和前馈模型(DUSt3R/MASt3R/VGGT)已取得进展
- 数据缺失: 现有数据集仅覆盖一两种视角——nuScenes/KITTI-360 仅地面,Aerial-MegaDepth 缺卫星,MatrixCity 仅合成地面+航拍,没有同时涵盖三种视角的数据集
- 核心发现: 实验发现 VGGT 加入卫星图像后性能暴跌(零样本 RRA 52.9 vs 微调后仅 47.8),简单微调不仅无效还有害——极端视角差异引起的分布偏移是根本问题
- 本文切入: 数据+模型双贡献——构建三视角统一 benchmark + 设计 SkyNet 双流架构以航拍作为地面-卫星间的"桥梁"
方法详解¶
整体框架¶
Sky2Ground 数据集构建 → 现有方法 benchmark 发现瓶颈 → SkyNet 双流编码器(GAS-Encoder + Sat-Encoder)+ 课程训练策略 → 统一位姿+深度预测。
关键设计¶
-
Sky2Ground 数据集:
- 51 个地理站点,全球分布,共 80k+ 张图像
- 每站点: 卫星 120 张(1-2km,正射校正)、航拍 1080 张(三机位螺旋 200-800m)、地面 50-250 合成 + 120 真实
- COLMAP PatchMatch Stereo 生成稠密深度图和相机内外参
- 首个同时包含合成+真实图像的三视角数据集
-
SkyNet 双流架构:
- GAS-Encoder: 处理所有模态,内置 Masked-Satellite-Attention(MSA)——阻止地面/航拍 token 与卫星交互,但卫星 token 可读取地面/航拍信息。保护 VGGT 在地面/航拍上的零样本性能
- Sat-Encoder: 独立 DINO 编码卫星图像 + 全局自注意力,接收 GAS-Encoder 精炼的卫星特征 \(z = z + v_s\)(加法优于交叉注意力,65.1 vs 59.7)
- 共享 Camera/Depth Head 统一预测所有视角
-
课程训练策略:
- CA-CS(Curriculum-Aware Camera Sampling): 用 \(D(I_1, I_2) = d_R + \lambda_t d_T\) 预计算相机距离,初期采样近相机,逐步过渡到远距离/无重叠相机
- P-VS(Progressive View Sampling): 初期大量航拍(\(N_a \approx N\))作为桥梁,末期仅留地面+卫星(\(N_a \approx 0\)),让模型渐进适应极端视角差异
实验关键数据¶
主实验(GAS 设置)¶
| 方法 | 设置 | Avg RRA@5 | Avg RTA@5 | Sat RRA@5 |
|---|---|---|---|---|
| VGGT | 零样本 | 73.6 | 44.5 | 66.6 |
| VGGT | 微调 Sky2Ground | 55.4(-18.2) | 43.6 | 86.6 |
| MASt3R | 微调 | — | — | — |
| SkyNet | Sky2Ground | 83.2(+9.6) | 66.5(+22.0) | 88.9 |
消融实验¶
| 配置 | Avg 指标 | 相对 VGGT-ZS |
|---|---|---|
| VGGT 零样本 | 52.9 | baseline |
| VGGT 微调 | 47.8 | -5.1 |
| SkyNet (无 MSA/CA-CS/P-VS) | 53.1 | +0.2 |
| + MSA | 62.7 | +8.2 |
| + P-VS | 61.1 | +7.3 |
| + CA-CS | 54.3 | +1.4 |
| 全部组合 | 65.1 | +12.2 |
| VGGT 增加 24 层(参数匹配) | 50.4 | -2.5 |
关键发现¶
- MSA 是最关键组件(+8.2): 隔离卫星 token 防止其干扰地面/航拍特征学习
- P-VS 贡献第二大(+7.3): 航拍作为"桥梁"的渐进策略远优于直接混合训练
- 单纯增加参数(24 层 VGGT)达 50.4 仍低于零样本 52.9——证明改善来自架构设计而非参数量
- 交叉注意力融合卫星特征(59.7)不如简单加法(65.1),表明 V 域特征直接相加更稳健
亮点与洞察¶
- 微调反而有害的反直觉发现非常有价值: 揭示了跨极端视角的分布偏移问题,简单数据增加不等于性能提升
- MSA 的单向注意力掩码设计巧妙: 卫星可读取地面/航拍信息(获得上下文),但不污染地面/航拍的表示
- 课程学习从"容易"(有航拍桥梁)到"困难"(仅地面+卫星)的思路可推广到其他极端分布差异任务
局限性 / 可改进方向¶
- 两阶段流程(先估位姿再 Gaussian Splatting 渲染),未来可探索统一模型
- 51 个站点虽覆盖全球但规模仍有限,城市偏重
- 仅评估了低级 3D 指标,未评估下游应用(如导航、地理定位搜索)
相关工作与启发¶
- vs VGGT: 直接微调反而性能下降 18.2%,SkyNet 的双流+课程策略是关键改进
- vs DUSt3R/MASt3R: 需两阶段全局对齐,不支持卫星视角
- vs Dragon: 渐进式整合不同高度图像的思路类似,但 Dragon 关注渲染而非定位
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个三视角跨高度定位 benchmark + 双流架构
- 实验充分度: ⭐⭐⭐⭐⭐ 多方法对比 + 详细消融 + 10 站点标准差
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,实验发现有说服力
- 价值: ⭐⭐⭐⭐ 对大规模跨高度 3D 感知和行星级重建有推动作用
消融实验(Table 6,Avg = (RRA@5+RTA@5)/2)¶
| 配置 | MSA | CA-CS | P-VS | Avg |
|---|---|---|---|---|
| VGGT-ZS Baseline | ✗ | ✗ | ✗ | 52.9 |
| + 双流 | ✗ | ✗ | ✗ | 53.8 (+0.9) |
| + MSA | ✓ | ✗ | ✗ | 62.7 (+8.2) |
| + MSA + P-VS | ✓ | ✗ | ✓ | 64.9 (+12.0) |
| Full SkyNet | ✓ | ✓ | ✓ | 65.1 (+12.2) |
关键发现¶
- 卫星图像对单次前向模型危害巨大:VGGT 微调后 RRA 从 73.6 暴跌至 55.4,但 DUSt3R/MASt3R 反而提升(成对处理的归纳偏置帮助匹配卫星共有点)
- 加入真实图像降低渲染质量:合成数据 2DGS PSNR=14.9 → 混合真实后降至 13.9(domain gap)
- MSA 是最关键设计(+8.2),P-VS 次之(+3.8),CA-CS 贡献较小(+0.7)
亮点与洞察¶
- 航拍作为桥梁的设计直觉新颖——通过 P-VS 从"易(航拍多)→ 难(仅地面+卫星)"渐进训练
- MSA 的非对称设计巧妙:卫星可以读取地面/航拍信息,反之不行,避免分布漂移
局限性 / 可改进方向¶
- 合成-真实 domain gap 仍严重,混合训练效果差
- 仅 51 个站点,城市场景为主,自然场景泛化待验证
- 卫星正射校正是预处理步骤,端到端解决更优
相关工作与启发¶
- vs VGGT: SkyNet 冻结 VGGT 预训练权重+附加模块,避免微调破坏,思路类似 LoRA/Adapter
- vs DUSt3R/MASt3R: 成对处理的 \(O(N^2)\) 复杂度不切实际,SkyNet 保持单次前向优势
评分¶
- 新颖性: ⭐⭐⭐⭐ MSA 非对称注意力 + 课程训练策略设计有巧思
- 实验充分度: ⭐⭐⭐⭐ 多方法对比 + 多视角组合 + 详细消融
- 写作质量: ⭐⭐⭐⭐ 分析充分,问题驱动的写作结构清晰
- 价值: ⭐⭐⭐⭐ 填补三视角统一 benchmark 空白,SkyNet 提供可行基线