FlySearch: Exploring how vision-language models explore¶
会议: NeurIPS 2025 (Datasets and Benchmarks Track)
arXiv: 2506.02896
代码: 有(公开发布环境、场景和代码库)
领域: 多模态VLM / 具身智能 / 基准测试
关键词: 视觉语言模型, 目标导航, 探索能力, 3D环境, 无人机
一句话总结¶
FlySearch 提出了一个基于 Unreal Engine 5 的 3D 户外真实感环境,评估 VLM 的探索能力,发现最先进的 VLM 在简单搜索任务上也无法可靠完成,且与人类的差距随任务难度增加而急剧扩大。
研究背景与动机¶
视觉语言模型(VLM)在图像描述、VQA 等任务上表现优异,但其在真实非结构化环境中的主动探索能力基本未知。ObjectNav(目标导航)任务要求智能体在模拟环境中找到特定目标并导航至其位置,是评测具身智能的关键能力。然而现有基准存在几个局限:
环境限制:多数 ObjectNav 基准(Habitat、AI2-THOR)聚焦室内场景
系统评测 vs 模型评测:已有工作多将 VLM 作为组件构建复杂系统,而非评测 VLM 本身的探索能力
缺乏零样本开放性:多数方法依赖特定目标检测器,不适合开放世界搜索
视觉真实感不足:部分基准使用简化的视觉渲染
FlySearch 通过将 VLM 置于控制无人机(UAV)在大规模户外场景中搜索目标的任务中,系统评测其探索策略制定和执行能力。
方法详解¶
整体框架¶
FlySearch 系统由三个核心组件构成:
- 模拟器:基于 Unreal Engine 5 的高真实感渲染环境,支持动态光照、风场变化和程序化生成
- 评估控制器:Python 实现,管理场景生成、VLM 通信和结果统计
- 场景生成器:程序化生成无限数量的测试场景
评估任务流程:
- 模型收到文本提示,描述需要搜索的目标
- 每步收到 500×500 像素的 UAV 俯视 RGB 图像(带坐标网格叠加)
- 模型输出 <action>(X, Y, Z)</action> 相对位移指令
- 找到目标后输出 FOUND 结束搜索
成功判定:智能体高度 \(h_{agent}\) 与目标最高点 \(h_{object}\) 的差值 \(\leq 10m\),且目标在视野内。
关键设计¶
两类评估环境: - 森林环境:基于 Unreal "Electric Dreams" 演示,程序化生成植被和岩石 - 城市环境:基于 "City Sample" 演示,约 4×4 km 的现代美式城市
三组标准化挑战:
| 挑战 | 场景数 | 步数限制 | 特点 |
|---|---|---|---|
| FS-1 | 400 | 10 | 基础搜索,目标在初始视野内 |
| FS-Anomaly-1 | 200 | 10 | 找"不合适"的目标(如城市中的长颈鹿) |
| FS-2 | 200 | 20 | 困难搜索,目标可能被遮挡,需系统探索 |
搜索目标: - 城市:施工现场、人群、垃圾堆、火灾、车辆 - 森林:营地、垃圾堆、人(模拟受伤徒步者)、森林火灾、建筑 - 异常:UFO、小飞机、恐龙、坦克、长颈鹿等
损失函数 / 训练策略¶
FlySearch 本身是评测基准。对于 VLM 微调实验,作者使用 GRPO(Group Relative Policy Optimization)在森林环境上训练 Qwen2.5-VL 7B:
- 生成 6750 个独特场景和 67500 个训练样本
- 奖励函数结合推理质量(至少 100 token 推理)和动作质量(是否靠近目标)
- 使用 LoRA 微调,冻结视觉编码器
- 4 张 NVIDIA H100,训练数小时
实验关键数据¶
主实验¶
| 模型 | FS-1 总体 (%) | FS-2 总体 (%) |
|---|---|---|
| 人类(未训练) | 67.0 | — |
| Gemini 2.0 Flash | 42.0 | ~7.0 |
| Claude 3.5 Sonnet | ~37.0 | — |
| GPT-4o | ~36.0 | ~4.0 |
| Pixtral-Large 124B | ~30.0 | — |
| Qwen2-VL 72B | ~15.0 | — |
| Llava-Onevision 72b | ~12.0 | — |
| 小模型 (≤11B) | <4.0 | — |
| Qwen2.5-VL 7B GRPO微调 | 21.5 (City) | 0.0 |
FS-Anomaly-1 评测结果:
| 模型 | FS-Anomaly-1 总体 (%) |
|---|---|
| Gemini 2.0 Flash | 35.5 |
| GPT-4o | 27.0 |
| Claude 3.5 Sonnet | 27.5 |
| Pixtral-Large | 15.0 |
| Qwen2-VL 72B | 7.5 |
| 小模型 (≤11B) | <3.5 |
消融实验¶
| 实验设置 | Gemini | Pixtral |
|---|---|---|
| FS-1 基线 (10步) | 42.5 | 30.0 |
| FS-1 减少到5步 | ~38.0 (-10%) | ~25.0 (-17%) |
| FS-1 增加到20步 | ~40.0 (-6%) | ~25.0 (-17%) |
| FS-1 使用指南针动作 | 17.5 (森林) | 22.0 (森林) |
| FS-1 去除网格叠加 | 31.5 (森林) | 20.0 (森林) |
| FS-Anomaly 显式指定目标类型 | 显著提升 | 显著提升 |
关键发现¶
- VLM 严重落后人类:在 FS-1 上,最佳 VLM(Gemini,42%)比人类(67%)低 37%;在 FS-2 上差距扩大到 835%
- 小模型几乎无法完成任务:≤11B 参数的开源模型成功率 <4%,主要因为无法正确格式化输出
- 增加步数反而有害:从 10 步增加到 20 步,Gemini 和 Pixtral 性能均下降,说明 VLM 难以在长时间线上维持连贯策略
- 微调效果有限:GRPO 微调将 Qwen 在 FS-1 城市场景从 1.5% 提升到 21.5%,但 FS-2 依然为 0%
- 异常检测困难:VLM 倾向于将正常但视觉突出的物体(如黄色出租车)误判为异常,而忽略真正的异常(旁边的坦克)
- 网格叠加至关重要:去除坐标网格导致性能大幅下降(森林环境 -26%),说明 VLM 依赖显式空间参考
亮点与洞察¶
- 精确诊断 VLM 缺陷:系统性地将失败原因分类为视觉幻觉、上下文误解和任务规划失败
- 环境设计高质量:Unreal Engine 5 近逼真渲染 + 程序化生成,支持无限场景扩展
- 人类基线对比:通过在线用户研究建立了有意义的人类参考标准
- 可复现性好:三组标准化挑战确保公平可比的评测条件
- 揭示根本性问题:VLM 缺乏系统化探索策略——人类会沿街道搜索,而 VLM 随机移动
局限与展望¶
- 仅测试纯 VLM:未评测更复杂的 ObjectNav 系统(如融合 SLAM 的方法)
- 简单提示策略:仅用零样本提示,未探索少样本学习或提示优化
- 俯视固定视角:相机始终朝下,限制了环境感知方式
- 城市环境碰撞问题:模型频繁触发碰撞检防(特别是在 FS-2),影响搜索效率
- 缺少多目标/协作搜索:仅评测单一智能体搜索单一目标
相关工作与启发¶
- BALROG:评测 VLM 在游戏环境中的表现,但缺少户外 3D 场景
- VisualAgentBench:多环境 VLM 评测,但不聚焦探索能力
- Habitat/AI2-THOR:ObjectNav 标准环境,但仅限室内
- AirSim:基于 Unreal Engine 的 UAV 模拟器,但使用旧版引擎
- 启发:VLM 的"知道在哪里看"和"知道如何系统搜索"是两种根本不同的能力,当前 VLM 架构可能在后者上存在结构性缺陷
评分¶
- 新颖性: ★★★★★ — 首个大规模户外 3D 环境的 VLM 探索能力基准
- 技术深度: ★★★★☆ — 环境和评测设计精心,但方法创新在评测框架
- 实验充分度: ★★★★★ — 9 个 VLM、3 组挑战、人类基线、多维消融分析
- 实用性: ★★★★☆ — 对理解和改进 VLM 的空间推理/探索能力有直接指导意义
- 总体推荐: ★★★★☆
相关论文¶
- [ACL 2025] Exploring How Generative MLLMs Perceive More Than CLIP with the Same Vision Encoder
- [CVPR 2025] Towards Understanding How Knowledge Evolves in Large Vision-Language Models
- [NeurIPS 2025] NeedleInATable: Exploring Long-Context Capability of Large Language Models towards Long-Structured Tables
- [CVPR 2025] How to Merge Your Multimodal Models Over Time?
- [CVPR 2025] Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models