跳转至

FlySearch: Exploring how vision-language models explore

会议: NeurIPS 2025 (Datasets and Benchmarks Track)
arXiv: 2506.02896
代码: 有(公开发布环境、场景和代码库)
领域: 多模态VLM / 具身智能 / 基准测试
关键词: 视觉语言模型, 目标导航, 探索能力, 3D环境, 无人机

一句话总结

FlySearch 提出了一个基于 Unreal Engine 5 的 3D 户外真实感环境,评估 VLM 的探索能力,发现最先进的 VLM 在简单搜索任务上也无法可靠完成,且与人类的差距随任务难度增加而急剧扩大。

研究背景与动机

视觉语言模型(VLM)在图像描述、VQA 等任务上表现优异,但其在真实非结构化环境中的主动探索能力基本未知。ObjectNav(目标导航)任务要求智能体在模拟环境中找到特定目标并导航至其位置,是评测具身智能的关键能力。然而现有基准存在几个局限:

环境限制:多数 ObjectNav 基准(Habitat、AI2-THOR)聚焦室内场景

系统评测 vs 模型评测:已有工作多将 VLM 作为组件构建复杂系统,而非评测 VLM 本身的探索能力

缺乏零样本开放性:多数方法依赖特定目标检测器,不适合开放世界搜索

视觉真实感不足:部分基准使用简化的视觉渲染

FlySearch 通过将 VLM 置于控制无人机(UAV)在大规模户外场景中搜索目标的任务中,系统评测其探索策略制定和执行能力。

方法详解

整体框架

FlySearch 系统由三个核心组件构成:

  1. 模拟器:基于 Unreal Engine 5 的高真实感渲染环境,支持动态光照、风场变化和程序化生成
  2. 评估控制器:Python 实现,管理场景生成、VLM 通信和结果统计
  3. 场景生成器:程序化生成无限数量的测试场景

评估任务流程: - 模型收到文本提示,描述需要搜索的目标 - 每步收到 500×500 像素的 UAV 俯视 RGB 图像(带坐标网格叠加) - 模型输出 <action>(X, Y, Z)</action> 相对位移指令 - 找到目标后输出 FOUND 结束搜索

成功判定:智能体高度 \(h_{agent}\) 与目标最高点 \(h_{object}\) 的差值 \(\leq 10m\),且目标在视野内。

关键设计

两类评估环境: - 森林环境:基于 Unreal "Electric Dreams" 演示,程序化生成植被和岩石 - 城市环境:基于 "City Sample" 演示,约 4×4 km 的现代美式城市

三组标准化挑战

挑战 场景数 步数限制 特点
FS-1 400 10 基础搜索,目标在初始视野内
FS-Anomaly-1 200 10 找"不合适"的目标(如城市中的长颈鹿)
FS-2 200 20 困难搜索,目标可能被遮挡,需系统探索

搜索目标: - 城市:施工现场、人群、垃圾堆、火灾、车辆 - 森林:营地、垃圾堆、人(模拟受伤徒步者)、森林火灾、建筑 - 异常:UFO、小飞机、恐龙、坦克、长颈鹿等

损失函数 / 训练策略

FlySearch 本身是评测基准。对于 VLM 微调实验,作者使用 GRPO(Group Relative Policy Optimization)在森林环境上训练 Qwen2.5-VL 7B:

  • 生成 6750 个独特场景和 67500 个训练样本
  • 奖励函数结合推理质量(至少 100 token 推理)和动作质量(是否靠近目标)
  • 使用 LoRA 微调,冻结视觉编码器
  • 4 张 NVIDIA H100,训练数小时

实验关键数据

主实验

模型 FS-1 总体 (%) FS-2 总体 (%)
人类(未训练) 67.0
Gemini 2.0 Flash 42.0 ~7.0
Claude 3.5 Sonnet ~37.0
GPT-4o ~36.0 ~4.0
Pixtral-Large 124B ~30.0
Qwen2-VL 72B ~15.0
Llava-Onevision 72b ~12.0
小模型 (≤11B) <4.0
Qwen2.5-VL 7B GRPO微调 21.5 (City) 0.0

FS-Anomaly-1 评测结果:

模型 FS-Anomaly-1 总体 (%)
Gemini 2.0 Flash 35.5
GPT-4o 27.0
Claude 3.5 Sonnet 27.5
Pixtral-Large 15.0
Qwen2-VL 72B 7.5
小模型 (≤11B) <3.5

消融实验

实验设置 Gemini Pixtral
FS-1 基线 (10步) 42.5 30.0
FS-1 减少到5步 ~38.0 (-10%) ~25.0 (-17%)
FS-1 增加到20步 ~40.0 (-6%) ~25.0 (-17%)
FS-1 使用指南针动作 17.5 (森林) 22.0 (森林)
FS-1 去除网格叠加 31.5 (森林) 20.0 (森林)
FS-Anomaly 显式指定目标类型 显著提升 显著提升

关键发现

  1. VLM 严重落后人类:在 FS-1 上,最佳 VLM(Gemini,42%)比人类(67%)低 37%;在 FS-2 上差距扩大到 835%
  2. 小模型几乎无法完成任务:≤11B 参数的开源模型成功率 <4%,主要因为无法正确格式化输出
  3. 增加步数反而有害:从 10 步增加到 20 步,Gemini 和 Pixtral 性能均下降,说明 VLM 难以在长时间线上维持连贯策略
  4. 微调效果有限:GRPO 微调将 Qwen 在 FS-1 城市场景从 1.5% 提升到 21.5%,但 FS-2 依然为 0%
  5. 异常检测困难:VLM 倾向于将正常但视觉突出的物体(如黄色出租车)误判为异常,而忽略真正的异常(旁边的坦克)
  6. 网格叠加至关重要:去除坐标网格导致性能大幅下降(森林环境 -26%),说明 VLM 依赖显式空间参考

亮点与洞察

  1. 精确诊断 VLM 缺陷:系统性地将失败原因分类为视觉幻觉、上下文误解和任务规划失败
  2. 环境设计高质量:Unreal Engine 5 近逼真渲染 + 程序化生成,支持无限场景扩展
  3. 人类基线对比:通过在线用户研究建立了有意义的人类参考标准
  4. 可复现性好:三组标准化挑战确保公平可比的评测条件
  5. 揭示根本性问题:VLM 缺乏系统化探索策略——人类会沿街道搜索,而 VLM 随机移动

局限与展望

  1. 仅测试纯 VLM:未评测更复杂的 ObjectNav 系统(如融合 SLAM 的方法)
  2. 简单提示策略:仅用零样本提示,未探索少样本学习或提示优化
  3. 俯视固定视角:相机始终朝下,限制了环境感知方式
  4. 城市环境碰撞问题:模型频繁触发碰撞检防(特别是在 FS-2),影响搜索效率
  5. 缺少多目标/协作搜索:仅评测单一智能体搜索单一目标

相关工作与启发

  • BALROG:评测 VLM 在游戏环境中的表现,但缺少户外 3D 场景
  • VisualAgentBench:多环境 VLM 评测,但不聚焦探索能力
  • Habitat/AI2-THOR:ObjectNav 标准环境,但仅限室内
  • AirSim:基于 Unreal Engine 的 UAV 模拟器,但使用旧版引擎
  • 启发:VLM 的"知道在哪里看"和"知道如何系统搜索"是两种根本不同的能力,当前 VLM 架构可能在后者上存在结构性缺陷

评分

  • 新颖性: ★★★★★ — 首个大规模户外 3D 环境的 VLM 探索能力基准
  • 技术深度: ★★★★☆ — 环境和评测设计精心,但方法创新在评测框架
  • 实验充分度: ★★★★★ — 9 个 VLM、3 组挑战、人类基线、多维消融分析
  • 实用性: ★★★★☆ — 对理解和改进 VLM 的空间推理/探索能力有直接指导意义
  • 总体推荐: ★★★★☆

相关论文