跳转至

Sky2Ground: A Benchmark for Site Modeling under Varying Altitude

日期: 2026-03-14
arXiv: 2603.13740
代码: 即将开源
领域: 3D视觉 / 跨视角定位
关键词: cross-view localization, satellite-aerial-ground, 3D reconstruction, benchmark, site modeling

一句话总结

构建 Sky2Ground 跨高度场景建模 benchmark(51 个地理站点、80k 张图像,覆盖卫星/航拍/地面三种视角),提出 SkyNet 双流架构在 GAS 设置下 RRA@5 达 83.2%(+9.6%),平均指标 65.1(VGGT 零样本 52.9),消融显示 MSA 贡献 +8.2%、P-VS 贡献 +7.3%。

研究背景与动机

  1. 领域现状: 跨视角定位(地面↔卫星/航拍)在自动驾驶和地理建模中至关重要,SfM(COLMAP)和前馈模型(DUSt3R/MASt3R/VGGT)已取得进展
  2. 数据缺失: 现有数据集仅覆盖一两种视角——nuScenes/KITTI-360 仅地面,Aerial-MegaDepth 缺卫星,MatrixCity 仅合成地面+航拍,没有同时涵盖三种视角的数据集
  3. 核心发现: 实验发现 VGGT 加入卫星图像后性能暴跌(零样本 RRA 52.9 vs 微调后仅 47.8),简单微调不仅无效还有害——极端视角差异引起的分布偏移是根本问题
  4. 本文切入: 数据+模型双贡献——构建三视角统一 benchmark + 设计 SkyNet 双流架构以航拍作为地面-卫星间的"桥梁"

方法详解

整体框架

Sky2Ground 数据集构建 → 现有方法 benchmark 发现瓶颈 → SkyNet 双流编码器(GAS-Encoder + Sat-Encoder)+ 课程训练策略 → 统一位姿+深度预测。

关键设计

  1. Sky2Ground 数据集:

    • 51 个地理站点,全球分布,共 80k+ 张图像
    • 每站点: 卫星 120 张(1-2km,正射校正)、航拍 1080 张(三机位螺旋 200-800m)、地面 50-250 合成 + 120 真实
    • COLMAP PatchMatch Stereo 生成稠密深度图和相机内外参
    • 首个同时包含合成+真实图像的三视角数据集
  2. SkyNet 双流架构:

    • GAS-Encoder: 处理所有模态,内置 Masked-Satellite-Attention(MSA)——阻止地面/航拍 token 与卫星交互,但卫星 token 可读取地面/航拍信息。保护 VGGT 在地面/航拍上的零样本性能
    • Sat-Encoder: 独立 DINO 编码卫星图像 + 全局自注意力,接收 GAS-Encoder 精炼的卫星特征 \(z = z + v_s\)(加法优于交叉注意力,65.1 vs 59.7)
    • 共享 Camera/Depth Head 统一预测所有视角
  3. 课程训练策略:

    • CA-CS(Curriculum-Aware Camera Sampling): 用 \(D(I_1, I_2) = d_R + \lambda_t d_T\) 预计算相机距离,初期采样近相机,逐步过渡到远距离/无重叠相机
    • P-VS(Progressive View Sampling): 初期大量航拍(\(N_a \approx N\))作为桥梁,末期仅留地面+卫星(\(N_a \approx 0\)),让模型渐进适应极端视角差异

实验关键数据

主实验(GAS 设置)

方法 设置 Avg RRA@5 Avg RTA@5 Sat RRA@5
VGGT 零样本 73.6 44.5 66.6
VGGT 微调 Sky2Ground 55.4(-18.2) 43.6 86.6
MASt3R 微调
SkyNet Sky2Ground 83.2(+9.6) 66.5(+22.0) 88.9

消融实验

配置 Avg 指标 相对 VGGT-ZS
VGGT 零样本 52.9 baseline
VGGT 微调 47.8 -5.1
SkyNet (无 MSA/CA-CS/P-VS) 53.1 +0.2
+ MSA 62.7 +8.2
+ P-VS 61.1 +7.3
+ CA-CS 54.3 +1.4
全部组合 65.1 +12.2
VGGT 增加 24 层(参数匹配) 50.4 -2.5

关键发现

  • MSA 是最关键组件(+8.2): 隔离卫星 token 防止其干扰地面/航拍特征学习
  • P-VS 贡献第二大(+7.3): 航拍作为"桥梁"的渐进策略远优于直接混合训练
  • 单纯增加参数(24 层 VGGT)达 50.4 仍低于零样本 52.9——证明改善来自架构设计而非参数量
  • 交叉注意力融合卫星特征(59.7)不如简单加法(65.1),表明 V 域特征直接相加更稳健

亮点与洞察

  • 微调反而有害的反直觉发现非常有价值: 揭示了跨极端视角的分布偏移问题,简单数据增加不等于性能提升
  • MSA 的单向注意力掩码设计巧妙: 卫星可读取地面/航拍信息(获得上下文),但不污染地面/航拍的表示
  • 课程学习从"容易"(有航拍桥梁)到"困难"(仅地面+卫星)的思路可推广到其他极端分布差异任务

局限性 / 可改进方向

  • 两阶段流程(先估位姿再 Gaussian Splatting 渲染),未来可探索统一模型
  • 51 个站点虽覆盖全球但规模仍有限,城市偏重
  • 仅评估了低级 3D 指标,未评估下游应用(如导航、地理定位搜索)

相关工作与启发

  • vs VGGT: 直接微调反而性能下降 18.2%,SkyNet 的双流+课程策略是关键改进
  • vs DUSt3R/MASt3R: 需两阶段全局对齐,不支持卫星视角
  • vs Dragon: 渐进式整合不同高度图像的思路类似,但 Dragon 关注渲染而非定位

评分

  • 新颖性: ⭐⭐⭐⭐ 首个三视角跨高度定位 benchmark + 双流架构
  • 实验充分度: ⭐⭐⭐⭐⭐ 多方法对比 + 详细消融 + 10 站点标准差
  • 写作质量: ⭐⭐⭐⭐ 问题动机清晰,实验发现有说服力
  • 价值: ⭐⭐⭐⭐ 对大规模跨高度 3D 感知和行星级重建有推动作用

消融实验(Table 6,Avg = (RRA@5+RTA@5)/2)

配置 MSA CA-CS P-VS Avg
VGGT-ZS Baseline 52.9
+ 双流 53.8 (+0.9)
+ MSA 62.7 (+8.2)
+ MSA + P-VS 64.9 (+12.0)
Full SkyNet 65.1 (+12.2)

关键发现

  • 卫星图像对单次前向模型危害巨大:VGGT 微调后 RRA 从 73.6 暴跌至 55.4,但 DUSt3R/MASt3R 反而提升(成对处理的归纳偏置帮助匹配卫星共有点)
  • 加入真实图像降低渲染质量:合成数据 2DGS PSNR=14.9 → 混合真实后降至 13.9(domain gap)
  • MSA 是最关键设计(+8.2),P-VS 次之(+3.8),CA-CS 贡献较小(+0.7)

亮点与洞察

  • 航拍作为桥梁的设计直觉新颖——通过 P-VS 从"易(航拍多)→ 难(仅地面+卫星)"渐进训练
  • MSA 的非对称设计巧妙:卫星可以读取地面/航拍信息,反之不行,避免分布漂移

局限性 / 可改进方向

  • 合成-真实 domain gap 仍严重,混合训练效果差
  • 仅 51 个站点,城市场景为主,自然场景泛化待验证
  • 卫星正射校正是预处理步骤,端到端解决更优

相关工作与启发

  • vs VGGT: SkyNet 冻结 VGGT 预训练权重+附加模块,避免微调破坏,思路类似 LoRA/Adapter
  • vs DUSt3R/MASt3R: 成对处理的 \(O(N^2)\) 复杂度不切实际,SkyNet 保持单次前向优势

评分

  • 新颖性: ⭐⭐⭐⭐ MSA 非对称注意力 + 课程训练策略设计有巧思
  • 实验充分度: ⭐⭐⭐⭐ 多方法对比 + 多视角组合 + 详细消融
  • 写作质量: ⭐⭐⭐⭐ 分析充分,问题驱动的写作结构清晰
  • 价值: ⭐⭐⭐⭐ 填补三视角统一 benchmark 空白,SkyNet 提供可行基线