跳转至

MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents

会议: NeurIPS 2025 (Datasets & Benchmarks)
arXiv: 2505.20148
代码: 项目主页
领域: 多模态VLM / Agent / 空间规划
关键词: spatial planning, Minecraft, open-world agent, MLLM benchmark, spatial intelligence

一句话总结

基于 Minecraft 构建空间规划基准 MineAnyBuild,要求 AI Agent 根据多模态指令生成可执行的建筑蓝图矩阵,包含 4000 个任务和 500+ 建筑/装饰资产,从空间理解、空间推理、创造力和空间常识四个维度系统评估 MLLM 的空间规划能力,揭示即便 GPT-4o 整体得分仅 41.02/100,开源模型更差。

背景与动机

  1. 空间规划是空间智能的核心能力:需要理解并规划物体在 3D 空间中的排列,广泛应用于机器人操作、自动装配、城市规划等场景
  2. 现有 benchmark 的关键缺陷:VSI-Bench、SpatialVLM、Lego-Puzzles 等主要以 VQA 形式评估空间理解/推理(如"这个物体在左边还是右边?"),但抽象的空间理解与具体的任务执行之间存在巨大 gap——能回答空间关系问题不等于能做空间规划
  3. Minecraft 建筑任务的独特价值:离散方块世界简化了评估(精确的坐标对齐),同时保留了 3D 空间规划的核心挑战;建筑创作是 Minecraft 吸引数百万玩家的核心玩法,天然具备开放性和自由度

核心问题

MLLM-based Agent 能否将空间理解能力转化为具体的、可执行的空间规划?从"知道空间关系"到"生成 3D 建筑蓝图"之间的鸿沟有多大?

方法详解

整体框架

  • 平台:Minecraft 3D 方块世界
  • 输入:多模态人类指令(文本描述 + 参考图片)
  • 输出:可执行的蓝图矩阵(blueprint matrix),由 mineflayer 模拟器自动在 Minecraft 中生成对应建筑
  • 规模:4000 个精心策划的任务 + 500+ 建筑/室内装饰资产 + ~2000 个 VQA 对
  • 扩展性:提供无限可扩展的数据收集范式,利用互联网上海量玩家 UGC 内容

五类任务设计

  1. 可执行空间规划生成(Executable Spatial Plan Generation):给定抽象建筑指令(如"建造一个苹果,用 black_terracotta 做茎"),Agent 需要思考子结构分解和组合连接,生成可执行的 3D 蓝图矩阵。类比现实中建筑师从文字需求到施工图的过程
  2. 空间理解(Spatial Understanding):给定逐步指令(含每个方块的相对坐标映射表,如 Layer 2: "red_wool": [(0,0),(1,0)]),Agent 需将相对坐标转化为完整的蓝图矩阵,模拟人类在自我中心与世界中心视角之间的认知映射
  3. 创造力(Creativity):给定指令后 Agent 需头脑风暴方块组合方案,在满足结构约束的同时最大化美学创意(如用各种楼梯和石板设计中式或城堡风格屋顶)。通过 MLLM critic 模型 + 人工评估打分
  4. 空间推理(Spatial Reasoning):借鉴经典心理学心理旋转实验,构建 48 个由方块组成的几何刺激物,生成 1900 个任务——Agent 需判断旋转后的几何体是否与参考刺激一致(干扰项为镜像翻转+额外旋转)
  5. 空间常识(Spatial Commonsense):评估 Agent 对日常空间规则的直觉理解,如"冰箱不能放在浴室""卧室的朝向"等物体摆放合理性判断

数据构建流程

  1. 数据收集:从 GrabCraft、Minecraft Official Wiki 等网站收集 ~7000 个建筑;从创作者分享平台收集 ~500 个室内装饰资产;空间推理任务参考 Shepard & Metzler 心理旋转实验设计刺激物
  2. 质量检查:代码自动过滤 + 人工审核,去除问题数据
  3. 数据标注:人工或 MLLM 辅助标注指令,使其引导 Agent 思考子结构分解与空间规划;空间常识任务由人工手动设计 VQA 对

评估指标

  • Executable Spatial Plan Generation / Creativity / Spatial Commonsense:使用 GPT-4.1 作为 critic 模型按多个子维度打分,加权计算综合分(满分 10 分);不可执行的方案直接计 0 分
  • Spatial Understanding:同样由 critic 模型评分
  • Spatial Reasoning:直接计算 VQA 准确率(%)
  • Overall:五个维度加权求和(满分 100)

实验结果

主要发现

评估 13 个 MLLM(7 个闭源 + 6 个开源),全部 zero-shot:

模型 可执行规划 空间理解 空间推理 创造力 空间常识 Overall
GPT-4o 3.27 4.75 24.4% 2.73 7.32 41.02
Claude-3.7-Sonnet 3.48 5.07 17.6% 3.10 6.94 40.70
Gemini-1.5-Pro 3.53 4.80 16.9% 2.73 7.52 40.54
GPT-4o-mini 2.08 2.52 26.7% 2.38 7.14 33.58
Qwen2.5VL-7B 1.29 1.12 16.0% 1.34 6.30 23.30
InternVL2.5-8B 0.68 0.62 20.4% 0.66 5.62 19.24

关键观察

  1. 整体表现极差:最强的 GPT-4o 仅得 41.02/100,不到满分一半,说明空间规划对现有 MLLM 仍是重大挑战
  2. 开源 vs 闭源差距悬殊:闭源模型平均 OSR(输出成功率)93.40%,开源模型远低于此——很多开源模型根本无法生成合法的 3D 蓝图矩阵
  3. 空间推理令人意外:GPT-4o-mini(26.7%)反超 GPT-4o(24.4%),说明通用能力更强不等于空间推理更好;多数模型 <25%,接近随机水平
  4. 空间常识相对最好:闭源模型 6.8-7.5 分(满分 10),说明 MLLM 已有一定日常空间常识,但这不能迁移到空间规划执行

三类核心失败模式

  1. 空间误解(Spatial Misunderstanding):Agent 频繁误解 3D 位置关系,如 Claude-3.5-Sonnet 把奥运五环叠在一起而非平铺在同一平面——缺乏空间接地能力
  2. 实现鸿沟(Implementation Gap):Agent 能用文字描述合理的规划方案,但无法将其转化为精确的蓝图矩阵——方块索引错误、朝向错误、空间逻辑不一致导致解析/执行失败
  3. 复杂度退化(Structural Degeneration):当任务要求非立方体、非对称或创意设计时,Agent 倾向于退化为简单盒状输出或混乱结果——从基础模式到复杂建筑概念的缩放能力有限

亮点 / 我学到了什么

  • 从"理解"到"执行"是 Agent 空间智能的核心瓶颈:VQA 准确率与空间规划能力之间几乎不存在正相关,这对整个空间智能研究领域是重要警示
  • 心理旋转实验引入 AI 评测的思路很巧妙:用经典认知心理学范式构造空间推理测试,既有理论支撑又可控制难度
  • 无限扩展范式设计精妙:通过 mineflayer 自动提取玩家建筑的方块信息 → 过滤空气块 → 生成标准化数据格式,实现了 benchmark 的持续扩容
  • 创造力作为评估维度的引入:虽然主观性较强,但确实是 AGI 评估中不可回避的维度,且通过 MLLM critic + 人工评估的双重机制降低了偏差
  • Implementation Gap 的概念值得推广:可以迁移到其他 Agent 任务中——很多 Agent 能"说"但不能"做"

局限性

  • Minecraft 离散方块世界大幅简化了连续空间规划的复杂性(无需处理连续坐标、碰撞检测、物理约束)
  • 创造力评估依赖 MLLM critic(GPT-4.1),其自身的空间理解能力也有限,评分可靠性存疑
  • 仅测试 zero-shot 设置,未探索 few-shot / chain-of-thought / 专门微调对空间规划的提升效果
  • 未与 RL-based Agent(如 VPT、Voyager)进行系统对比,仅聚焦 MLLM-based 方案

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统评估 MLLM 空间规划(而非空间理解)能力的 benchmark,填补了从理解到执行的评估空白
  • 实验充分度: ⭐⭐⭐⭐ 4000 任务 × 13 模型 × 5 维度评估 + 详细的失败案例分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,任务定义严谨,可视化丰富
  • 对我的价值: ⭐⭐⭐ Agent 空间规划能力评估的重要参考;Implementation Gap 概念可迁移到其他 Agent 研究