AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis¶

会议: CVPR 2025
arXiv: 2504.13157
代码: https://aerial-megadepth.github.io
领域: 3D视觉
关键词: 地空联合重建, 跨视角匹配, 伪合成数据, 多视图几何, 新视角合成

一句话总结¶

本文提出AerialMegaDepth数据集生成框架，通过将Google Earth的伪合成航空渲染与MegaDepth的真实地面图像联合配准到统一坐标系中，构建了13.2万张混合高度图像的大规模训练数据，微调DUSt3R后将地空配对的相机旋转估计准确率从5%提升到56%，同时显著改善了新视角合成质量。

研究背景与动机¶

多视图3D重建和相机注册是计算机视觉的基石任务。近年来，基于学习的方法（如DUSt3R、MASt3R）在「野外」图像的几何估计上取得了显著进展，但面对一个关键场景几乎完全失败：地面与航空视角之间的极端视角变化。测试表明，预训练的DUSt3R在地空图像对上的相机旋转估计准确率（5°以内）仅有约5%。

作者的核心假设是：这一失败的根源在于缺乏联合配准的地空训练数据。现有数据集如MegaDepth主要由游客拍摄的地面图像构成，少有涵盖从无人机到地面的连续视角变化。而独立获取地面和航空图像的相机位姿虽然容易，但将它们合并到同一坐标系需要专业传感器或大量人工对齐，难以大规模化。

本文的解决方案很巧妙：利用Google Earth等地理空间平台的3D纹理网格进行多高度渲染（伪合成数据），再将大量真实地面图像通过视觉定位管道注册到同一坐标系中，形成混合数据集。

方法详解¶

整体框架¶

数据生成分两步：1）从Google Earth渲染伪合成图像并构建3D重建；2）将MegaDepth的真实地面图像配准到伪合成重建中。最终生成的AerialMegaDepth包含137个地标场景、132,137张联合配准的图像。基于此数据集微调DUSt3R和MASt3R等模型来改善地空几何估计。

关键设计¶

伪合成数据生成:
- 选择Google Earth作为数据源，因其覆盖大量地标且纹理质量高
- 自动生成查询视角：利用MegaDepth图像的EXIF GPS标签将SfM重建转换到全球坐标系（ECEF），从中采样200个点作为look-at目标
- 在每个地标生成600张不同高度（1m到350m）的渲染图像，共82,220张
- 称为"伪合成"而非"合成"，因为3D网格是由真实照片纹理化的
- 虽然Google Earth不提供底层3D网格的直接访问，但已知相机内外参，因此通过特征提取+匹配+三角化重建3D点云
真实图像联合配准:
- 关键观察：尽管伪合成图像和真实图像存在域差距（缺少瞬态物体、光照简单），但SOTA特征匹配方法仍能建立可靠对应
- 采用标准视觉定位流水线：为每张真实图像检索最相似的伪合成图像 → 2D特征匹配提升为2D-3D对应 → RANSAC PnP求解6-DoF位姿
- 进一步用COLMAP MVS生成半密集深度图用于监督
- 共配准49,937张MegaDepth图像与82,200张伪合成图像
训练数据对构造——非对称共视矩阵:
- 计算N×N共视矩阵\(\mathcal{C}\)，其中\(\mathcal{C}[i,j]\)表示图像\(i\)中可见的3D点在图像\(j\)中的可见比例
- 对地空设置，优先选择非对称高的图像对（地面图像只看到大场景的一小部分，航空图像看到很多）
- 设计分数\(s = \text{AM}/\text{HM}\)（算术平均/调和平均），高分数表示视角差异大
- 总共生成150万训练图像对
下游任务微调:
- 多视图位姿与几何估计：在DUSt3R和MASt3R上微调，回归图像对的3D点图（pointmap）
- 新视角合成：在ZeroNVS上微调，以单张航空图像为参考生成地面视角，训练时与MegaScenes按3:1比例混合防止过拟合

损失函数 / 训练策略¶

使用DUSt3R原始的pointmap回归损失进行微调
从8个公开数据集预训练的DUSt3R checkpoint开始微调
新视角合成使用ZeroNVS的标准扩散损失，基于MegaScenes预训练checkpoint微调

实验关键数据¶

主实验 — 地空相机配准¶

方法	RRA@5°	RRA@10°	RRA@15°	RTA@5°
DUSt3R (baseline)	5.20	7.95	9.48	2.75
DUSt3R + MatrixCity	17.85	37.28	42.80	11.33
DUSt3R + PSynth	31.28	47.63	51.61	28.78
DUSt3R + Hybrid	55.96	71.25	76.15	46.48
MASt3R (baseline)	3.36	3.36	4.59	2.45
MASt3R + Hybrid	49.54	66.36	72.48	42.51

多视图场景注册（1航空+N地面图像，RRA@15°）¶

方法	N=2	N=3	N=4	N=5
DUSt3R-GA (baseline, 仅地面)	12.20	32.21	38.31	43.98
DUSt3R-GA + Hybrid (含1航空)	56.10	55.28	57.72	59.27

新视角合成（航空→地面）¶

方法	DreamSim↓	LPIPS↓	PSNR↑	SSIM↑
ZeroNVS (MegaScenes) - 伪合成	0.448	0.413	10.85	0.416
ZeroNVS (Ours) - 伪合成	0.377	0.359	12.38	0.484
ZeroNVS (MegaScenes) - 真实	0.550	0.639	7.48	0.183
ZeroNVS (Ours) - 真实	0.442	0.580	8.22	0.218

消融实验¶

配置	RRA@5°	说明
仅伪合成数据（PSynth）	31.28	相比baseline提升6倍
仅合成数据（MatrixCity）	17.85	纯合成数据有域差距
混合数据（Hybrid）	55.96	真实地面图像弥补域差距

关键发现¶

混合数据比纯伪合成数据提升近一倍（RRA@5°: 31%→56%），证明真实地面图像对弥合域差距至关重要
伪合成数据比纯合成数据（MatrixCity）更有效，因为其纹理来自真实照片
仅增加一张航空参考图像就能显著提升多张地面图像的位姿估计（像"鸟瞰地图"一样连接各地面视角）
微调后模型在同视角对（地地、空空）上的性能没有明显下降
3D点图精度也大幅提升（1m误差内的点比例从42%提升到62%）

亮点与洞察¶

数据驱动的思路值得学习：与其设计复杂的跨视角匹配算法，不如提供合适的跨视角训练数据
混合真实+伪合成数据的策略巧妙地结合了两者优势：伪合成数据提供航空视角覆盖，真实数据提供视觉保真度
一张航空图像作为"地图"来连接互相没有重叠的地面图像，这个insight对实际无人机应用很有启发
非对称共视矩阵的图像对选择策略（AM/HM得分）优雅地刻画了地空视角差异
框架具有很强的可扩展性——可以接入其他众源数据集和地理空间平台

局限与展望¶

Google Earth的3D网格质量参差不齐，部分地标的地面纹理较差
GPS标签精度有限，可能引入初始对齐误差
数据集覆盖137个地标，地理分布可能存在偏差（主要是旅游景点）
新视角合成的质量虽有提升但仍有明显瑕疵，极端视角变化下的生成仍是开放问题
目前依赖COLMAP的MVS来生成深度监督信号，其精度受限于SfM重建质量
未探索卫星视角与无人机视角之间的桥接

评分¶

新颖性: ⭐⭐⭐⭐ 数据构建框架新颖（混合伪合成+真实），但方法主要是利用现有模型
实验充分度: ⭐⭐⭐⭐⭐ 多任务评估（位姿估计、多视图注册、NVS），在真实数据上零样本评测
写作质量: ⭐⭐⭐⭐⭐ 动机阐述极其清晰，实验设计合理，图示直观
价值: ⭐⭐⭐⭐⭐ 数据集将推动整个地空3D重建领域发展，框架可扩展到更多场景