FlySearch: Exploring how vision-language models explore¶

会议: NeurIPS 2025 (Datasets and Benchmarks Track)
arXiv: 2506.02896
代码: 有（公开发布环境、场景和代码库）
领域: 多模态VLM / 具身智能 / 基准测试
关键词: 视觉语言模型, 目标导航, 探索能力, 3D环境, 无人机

一句话总结¶

FlySearch 提出了一个基于 Unreal Engine 5 的 3D 户外真实感环境，评估 VLM 的探索能力，发现最先进的 VLM 在简单搜索任务上也无法可靠完成，且与人类的差距随任务难度增加而急剧扩大。

研究背景与动机¶

视觉语言模型（VLM）在图像描述、VQA 等任务上表现优异，但其在真实非结构化环境中的主动探索能力基本未知。ObjectNav（目标导航）任务要求智能体在模拟环境中找到特定目标并导航至其位置，是评测具身智能的关键能力。然而现有基准存在几个局限：

环境限制：多数 ObjectNav 基准（Habitat、AI2-THOR）聚焦室内场景

系统评测 vs 模型评测：已有工作多将 VLM 作为组件构建复杂系统，而非评测 VLM 本身的探索能力

缺乏零样本开放性：多数方法依赖特定目标检测器，不适合开放世界搜索

视觉真实感不足：部分基准使用简化的视觉渲染

FlySearch 通过将 VLM 置于控制无人机（UAV）在大规模户外场景中搜索目标的任务中，系统评测其探索策略制定和执行能力。

方法详解¶

整体框架¶

FlySearch 系统由三个核心组件构成：

模拟器：基于 Unreal Engine 5 的高真实感渲染环境，支持动态光照、风场变化和程序化生成
评估控制器：Python 实现，管理场景生成、VLM 通信和结果统计
场景生成器：程序化生成无限数量的测试场景

评估任务流程： - 模型收到文本提示，描述需要搜索的目标 - 每步收到 500×500 像素的 UAV 俯视 RGB 图像（带坐标网格叠加） - 模型输出 <action>(X, Y, Z)</action> 相对位移指令 - 找到目标后输出 FOUND 结束搜索

成功判定：智能体高度 \(h_{agent}\) 与目标最高点 \(h_{object}\) 的差值 \(\leq 10m\)，且目标在视野内。

关键设计¶

两类评估环境： - 森林环境：基于 Unreal "Electric Dreams" 演示，程序化生成植被和岩石 - 城市环境：基于 "City Sample" 演示，约 4×4 km 的现代美式城市

三组标准化挑战：

挑战	场景数	步数限制	特点
FS-1	400	10	基础搜索，目标在初始视野内
FS-Anomaly-1	200	10	找"不合适"的目标（如城市中的长颈鹿）
FS-2	200	20	困难搜索，目标可能被遮挡，需系统探索

搜索目标： - 城市：施工现场、人群、垃圾堆、火灾、车辆 - 森林：营地、垃圾堆、人（模拟受伤徒步者）、森林火灾、建筑 - 异常：UFO、小飞机、恐龙、坦克、长颈鹿等

损失函数 / 训练策略¶

FlySearch 本身是评测基准。对于 VLM 微调实验，作者使用 GRPO（Group Relative Policy Optimization）在森林环境上训练 Qwen2.5-VL 7B：

生成 6750 个独特场景和 67500 个训练样本
奖励函数结合推理质量（至少 100 token 推理）和动作质量（是否靠近目标）
使用 LoRA 微调，冻结视觉编码器
4 张 NVIDIA H100，训练数小时

实验关键数据¶

主实验¶

模型	FS-1 总体 (%)	FS-2 总体 (%)
人类（未训练）	67.0	—
Gemini 2.0 Flash	42.0	~7.0
Claude 3.5 Sonnet	~37.0	—
GPT-4o	~36.0	~4.0
Pixtral-Large 124B	~30.0	—
Qwen2-VL 72B	~15.0	—
Llava-Onevision 72b	~12.0	—
小模型 (≤11B)	<4.0	—
Qwen2.5-VL 7B GRPO微调	21.5 (City)	0.0

FS-Anomaly-1 评测结果：

模型	FS-Anomaly-1 总体 (%)
Gemini 2.0 Flash	35.5
GPT-4o	27.0
Claude 3.5 Sonnet	27.5
Pixtral-Large	15.0
Qwen2-VL 72B	7.5
小模型 (≤11B)	<3.5

消融实验¶

实验设置	Gemini	Pixtral
FS-1 基线 (10步)	42.5	30.0
FS-1 减少到5步	~38.0 (-10%)	~25.0 (-17%)
FS-1 增加到20步	~40.0 (-6%)	~25.0 (-17%)
FS-1 使用指南针动作	17.5 (森林)	22.0 (森林)
FS-1 去除网格叠加	31.5 (森林)	20.0 (森林)
FS-Anomaly 显式指定目标类型	显著提升	显著提升

关键发现¶

VLM 严重落后人类：在 FS-1 上，最佳 VLM（Gemini，42%）比人类（67%）低 37%；在 FS-2 上差距扩大到 835%
小模型几乎无法完成任务：≤11B 参数的开源模型成功率 <4%，主要因为无法正确格式化输出
增加步数反而有害：从 10 步增加到 20 步，Gemini 和 Pixtral 性能均下降，说明 VLM 难以在长时间线上维持连贯策略
微调效果有限：GRPO 微调将 Qwen 在 FS-1 城市场景从 1.5% 提升到 21.5%，但 FS-2 依然为 0%
异常检测困难：VLM 倾向于将正常但视觉突出的物体（如黄色出租车）误判为异常，而忽略真正的异常（旁边的坦克）
网格叠加至关重要：去除坐标网格导致性能大幅下降（森林环境 -26%），说明 VLM 依赖显式空间参考

亮点与洞察¶

精确诊断 VLM 缺陷：系统性地将失败原因分类为视觉幻觉、上下文误解和任务规划失败
环境设计高质量：Unreal Engine 5 近逼真渲染 + 程序化生成，支持无限场景扩展
人类基线对比：通过在线用户研究建立了有意义的人类参考标准
可复现性好：三组标准化挑战确保公平可比的评测条件
揭示根本性问题：VLM 缺乏系统化探索策略——人类会沿街道搜索，而 VLM 随机移动

局限与展望¶

仅测试纯 VLM：未评测更复杂的 ObjectNav 系统（如融合 SLAM 的方法）
简单提示策略：仅用零样本提示，未探索少样本学习或提示优化
俯视固定视角：相机始终朝下，限制了环境感知方式
城市环境碰撞问题：模型频繁触发碰撞检防（特别是在 FS-2），影响搜索效率
缺少多目标/协作搜索：仅评测单一智能体搜索单一目标

评分¶

新颖性: ★★★★★ — 首个大规模户外 3D 环境的 VLM 探索能力基准
技术深度: ★★★★☆ — 环境和评测设计精心，但方法创新在评测框架
实验充分度: ★★★★★ — 9 个 VLM、3 组挑战、人类基线、多维消融分析
实用性: ★★★★☆ — 对理解和改进 VLM 的空间推理/探索能力有直接指导意义
总体推荐: ★★★★☆