OpenFly: A Comprehensive Platform for Aerial Vision-Language Navigation¶

ICLR 2026 3D视觉空中VLN 无人机导航多渲染引擎自动数据生成关键帧感知 3D高斯溅射

会议: ICLR 2026
arXiv: 2502.18041
代码: 有(开源)
领域: 无人机导航/具身AI
关键词: 空中VLN, 无人机导航, 多渲染引擎, 自动数据生成, 关键帧感知, 3D高斯溅射

一句话总结¶

构建OpenFly——航空视觉-语言导航(VLN)综合平台：集成4种渲染引擎(UE/GTA V/Google Earth/3DGS)+开发全自动数据生成工具链(点云获取→语义分割→轨迹生成→GPT-4o指令)+构建10万轨迹大规模数据集(18场景)+提出关键帧感知VLN模型OpenFly-Agent(关键帧选择+视觉token融合)，在已见/未见场景分别以14.0%/7.9%的成功率优势超越现有方法。

研究背景与动机¶

VLN领域发展：VLN是具身AI核心任务，让agent根据语言指令和视觉观察导航到目标。已有大量室内/地面数据集(R2R、RxR、TouchDown、VLN-CE等)推动了方法发展，但无人机(UAV)作为航拍/救援/货运的关键平台，其VLN研究仍然不足。

先驱工作的局限：AerialVLN和OpenUAV利用AirSim+UE模拟器初步建立了空中VLN数据集，但面临三大挑战：数据多样性受限、收集成本高、数据规模小。

数据多样性瓶颈：现有方法依赖AirSim和Unreal Engine控制无人机，仅能使用与这些平台兼容的数字资产，限制了环境的多样性和真实感，无法引入更多高保真数据源。

人工标注成本高：轨迹生成依赖飞行员在模拟器中操作无人机，再由标注员手动编写语言指令。整个流程劳动密集、耗时长、难以规模化。

数据规模严重不足：当前航空VLN数据集仅约1万条轨迹，远远落后于机器人操作领域——Open X-Embodiment和EO-1已收集超过100万操作episode，数据匮乏严重制约模型能力。

核心思路：(1)多渲染引擎集成→解决多样性; (2)全自动化工具链→解决成本; (3)10万规模数据集→解决规模; (4)关键帧感知模型→解决长序列视觉冗余。

方法详解¶

1. 多渲染引擎集成¶

OpenFly集成4种渲染引擎/技术，极大丰富了场景资源：

Unreal Engine (UE)：提供8个城市场景，覆盖超过 \(100 \text{km}^2\)，包含建筑、车辆、行人等丰富资产
GTA V：贡献高度真实的城市景观，以洛杉矶为原型建模
Google Earth：提供4个城市区域(Berkeley/大阪/华盛顿D.C./圣路易斯)，覆盖 \(53.60 \text{km}^2\)
3D Gaussian Splatting (3DGS)：利用层级3DGS从无人机采集的真实图像重建3D场景，覆盖超过 \(7 \text{km}^2\) 的5个校园场景，实现real-to-sim渲染

2. 自动数据生成工具链¶

工具链包含4个自动化模块，设计了3个统一接口控制agent运动和获取传感器数据：

点云获取： - 光栅化采样重建(UE/GTA V)：在适当分辨率的采样点获取局部点云并拼接 - 基于图像的稀疏重建(3DGS)：使用COLMAP从输入图像生成稀疏点云

语义分割（三种方法灵活选择）： - 3D场景理解：捕获俯视图序列 → Octree-Graph提取语义3D实例 - 点云投影+轮廓提取：体素化点云投影到地面 → 分割轮廓 → GPT-4o标注语义 - 手动标注：点云质量低或需精细分割时的备选方案

自动轨迹生成： - 从场景点云构建全局体素地图 \(M_{global}\) - 随机选择地标作为目标，在一定距离选起点，靠近地标选终点 - 基于 \(M_{global}\) 和自定义动作空间，使用A*算法搜索无碰撞轨迹 - 迭代选择终点为新起点，可生成复杂轨迹

自动指令生成： - 关键策略：按动作转换点将完整轨迹分割为子轨迹，而非输入全部图像 - 提取每段子轨迹的关键动作和最后3帧图像 → GPT-4o生成子指令 - LLM整合所有子指令为完整导航指令 - 随机抽样3K样本人工检查 → 合格率达91%

3. OpenFly-Agent：关键帧感知VLN模型¶

基于OpenVLA构建，核心创新是关键帧选择和视觉token融合：

关键帧选择： - 动机：均匀帧采样不适合空中VLN，可能错过包含关键地标的帧 - 启发式方法：识别无人机运动变化点 → 提取变化点及前后两帧 → 构成候选关键帧集 - 地标定位模块：3层交叉注意力，融合LLM隐状态中的文本和图像特征，预测指令相关地标的边界框 \(\mathbf{b} \in \mathcal{R}^4\) - 筛选规则：候选帧中边界框面积大于阈值 \(\theta\) 的保留为最终关键帧

视觉Token融合 (VTM)： - 选择关键帧集中边界框最大的帧作为参考帧（包含最关键的地标观测） - 密集计算参考帧与其他帧各视觉token对的余弦相似度 - 高相似度token通过平均融合，未融合的对比帧token被丢弃 - 迭代执行直到遍历整个关键帧集 - 维护容量为 \(K\) 的记忆库（FIFO策略保留最新关键帧） - 关键帧内部通过grid pooling进一步压缩，当前帧保持未压缩以获取最新视觉观测

动作预测：词表最后256个token作为动作特殊token，定义6种无人机动作 \(\{\)Forward, Turn Left, Turn Right, Move Up, Move Down, Stop\(\}\)。

实验结果¶

表1：VLN数据集对比¶

数据集	轨迹数	词表大小	路径长度(m)	指令长度	动作空间	环境
R2R	7189	3.1K	10.0	29	graph	Matterport3D
RxR	13992	7.0K	14.9	129	graph	Matterport3D
AerialVLN	8446	4.5K	661.8	83	4 DoF	AirSim+UE
CityNav	32637	6.6K	545	26	4 DoF	SensatUrban
OpenUAV	12149	10.8K	255	104	6 DoF	AirSim+UE
OpenFly	100K	15.6K	99.1	59	4 DoF	多引擎

表2：测试集导航性能对比¶

方法	NE↓(seen)	SR↑(seen)	OSR↑(seen)	SPL↑(seen)	NE↓(unseen)	SR↑(unseen)	OSR↑(unseen)	SPL↑(unseen)
Random	242m	0.7%	0.8%	0%	301m	0.1%	0.1%	0%
Seq2Seq	205m	2.9%	24.3%	2.6%	229m	2.1%	20.6%	1.1%
CMA	161m	5.4%	28.1%	4.8%	217m	4.6%	24.4%	2.1%
AerialVLN	139m	7.5%	30.0%	6.8%	214m	7.3%	28.1%	4.4%
Navid	153m	13.0%	38.2%	11.6%	210m	10.8%	27.2%	5.0%
NaVila	132m	20.3%	53.5%	17.8%	202m	14.7%	42.1%	9.6%
OpenFly-Agent	93m	34.3%	64.3%	24.9%	154m	22.6%	56.2%	19.1%

表3：消融实验(test-seen)¶

方法	NE↓	SR↑	OSR↑	SPL↑
OpenVLA (baseline)	231m	2.3%	10.8%	2.2%
History (均匀采样)	223m	6.9%	23.3%	5.6%
Random KS	264m	8.7%	26.6%	5.8%
KS (关键帧选择)	275m	9.2%	28.1%	6.1%
History + VTM	215m	16.6%	40.5%	9.1%
KS + VTM	93m	34.3%	64.3%	24.9%

关键发现¶

关键帧选择+视觉token融合的协同效应极为显著：单独使用KS(SR 9.2%)或History+VTM(SR 16.6%)效果有限，组合使用(SR 34.3%)产生超线性提升。原因是VTM解决了文本-图像token数量不平衡问题，避免背景噪声稀释对关键线索的注意力。
多引擎训练数据的泛化优势：在真实世界23个场景实验中，用OpenFly数据训练的模型(SR 26.09%, OSR 34.78%)大幅优于AerialVLN数据训练的模型，证明多引擎数据有效弥合sim-to-real gap。
VLM在空中VLN中的巨大潜力：基于VLM的Navid/NaVila显著优于传统Seq2Seq/CMA方法，尤其在Oracle SR上差距明显(38-53% vs 24-28%)，说明VLM的推理能力对导航至关重要。
短-中程指令更贴近实际使用：OpenFly平均轨迹长度99.1m、指令长度59词，远低于AerialVLN(661.8m/83词)。作者论证这更符合自然人类使用习惯，且对推动空中VLN更有益。
自动指令生成质量可靠：基于GPT-4o的子轨迹分割策略+LLM整合，随机抽样3K样本人工检查合格率91%，且支持高并发快速生成大量指令。

亮点与洞察¶

系统级创新而非单点突破：OpenFly的贡献不在于某个模型组件的创新性，而在于整合4引擎+自动工具链+10万数据集+关键帧模型的完整platform，形成闭环。
3DGS的real-to-sim应用：无人机采集真实图像→3DGS重建→在重建场景中自动生成训练数据→部署到真实无人机，闭环验证了新范式。
工程价值极高：用户可利用OpenFly工具链在自己的场景快速生成定制数据，具有基础设施级贡献。
数据规模的量变到质变：10万轨迹（vs 现有~1万）首次让空中VLN数据规模与地面VLN可比，OpenVLA的迁移效果也依赖这一规模。

局限性¶

绝对成功率仍然不高：即使是最优的OpenFly-Agent，test-seen SR也仅34.3%、test-unseen仅22.6%，说明空中VLN仍极具挑战性，距离实用部署差距明显。
泛化能力有限：所有方法在unseen场景上性能显著下降（SR从34.3%→22.6%），跨场景泛化仍是核心瓶颈。
依赖GPT-4o：指令生成和语义标注依赖商业闭源VLM，成本和可复现性受限。
动作空间简化：使用固定步长(3/6/9m)的离散动作，与真实无人机的连续控制有差距。虽然提供了连续轨迹支持，但主要实验仍基于离散动作。
Google Earth数据仅限高空视角：为保证视觉质量，Google Earth仅采集高空数据(4.46%)，限制了低空真实场景覆盖。

评分¶

新颖性: ⭐⭐⭐⭐ 多引擎集成+全自动pipeline+关键帧感知的系统级创新，单点技术创新有限
实验充分度: ⭐⭐⭐⭐⭐ 多方法对比+消融+真实无人机部署+跨数据集对比+规模分析，非常全面
写作质量: ⭐⭐⭐⭐ 系统描述清晰完整，图表丰富
价值与影响: ⭐⭐⭐⭐⭐ 对空中VLN研究有基础设施级贡献，工具链+数据集+benchmark三位一体