MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents¶
会议: NeurIPS 2025 (Datasets & Benchmarks)
arXiv: 2505.20148
代码: 项目主页
领域: 多模态VLM / Agent / 空间规划
关键词: spatial planning, Minecraft, open-world agent, MLLM benchmark, spatial intelligence
一句话总结¶
基于 Minecraft 构建空间规划基准 MineAnyBuild,要求 AI Agent 根据多模态指令生成可执行的建筑蓝图矩阵,包含 4000 个任务和 500+ 建筑/装饰资产,从空间理解、空间推理、创造力和空间常识四个维度系统评估 MLLM 的空间规划能力,揭示即便 GPT-4o 整体得分仅 41.02/100,开源模型更差。
背景与动机¶
- 空间规划是空间智能的核心能力:需要理解并规划物体在 3D 空间中的排列,广泛应用于机器人操作、自动装配、城市规划等场景
- 现有 benchmark 的关键缺陷:VSI-Bench、SpatialVLM、Lego-Puzzles 等主要以 VQA 形式评估空间理解/推理(如"这个物体在左边还是右边?"),但抽象的空间理解与具体的任务执行之间存在巨大 gap——能回答空间关系问题不等于能做空间规划
- Minecraft 建筑任务的独特价值:离散方块世界简化了评估(精确的坐标对齐),同时保留了 3D 空间规划的核心挑战;建筑创作是 Minecraft 吸引数百万玩家的核心玩法,天然具备开放性和自由度
核心问题¶
MLLM-based Agent 能否将空间理解能力转化为具体的、可执行的空间规划?从"知道空间关系"到"生成 3D 建筑蓝图"之间的鸿沟有多大?
方法详解¶
整体框架¶
- 平台:Minecraft 3D 方块世界
- 输入:多模态人类指令(文本描述 + 参考图片)
- 输出:可执行的蓝图矩阵(blueprint matrix),由 mineflayer 模拟器自动在 Minecraft 中生成对应建筑
- 规模:4000 个精心策划的任务 + 500+ 建筑/室内装饰资产 + ~2000 个 VQA 对
- 扩展性:提供无限可扩展的数据收集范式,利用互联网上海量玩家 UGC 内容
五类任务设计¶
- 可执行空间规划生成(Executable Spatial Plan Generation):给定抽象建筑指令(如"建造一个苹果,用 black_terracotta 做茎"),Agent 需要思考子结构分解和组合连接,生成可执行的 3D 蓝图矩阵。类比现实中建筑师从文字需求到施工图的过程
- 空间理解(Spatial Understanding):给定逐步指令(含每个方块的相对坐标映射表,如 Layer 2: "red_wool": [(0,0),(1,0)]),Agent 需将相对坐标转化为完整的蓝图矩阵,模拟人类在自我中心与世界中心视角之间的认知映射
- 创造力(Creativity):给定指令后 Agent 需头脑风暴方块组合方案,在满足结构约束的同时最大化美学创意(如用各种楼梯和石板设计中式或城堡风格屋顶)。通过 MLLM critic 模型 + 人工评估打分
- 空间推理(Spatial Reasoning):借鉴经典心理学心理旋转实验,构建 48 个由方块组成的几何刺激物,生成 1900 个任务——Agent 需判断旋转后的几何体是否与参考刺激一致(干扰项为镜像翻转+额外旋转)
- 空间常识(Spatial Commonsense):评估 Agent 对日常空间规则的直觉理解,如"冰箱不能放在浴室""卧室的朝向"等物体摆放合理性判断
数据构建流程¶
- 数据收集:从 GrabCraft、Minecraft Official Wiki 等网站收集 ~7000 个建筑;从创作者分享平台收集 ~500 个室内装饰资产;空间推理任务参考 Shepard & Metzler 心理旋转实验设计刺激物
- 质量检查:代码自动过滤 + 人工审核,去除问题数据
- 数据标注:人工或 MLLM 辅助标注指令,使其引导 Agent 思考子结构分解与空间规划;空间常识任务由人工手动设计 VQA 对
评估指标¶
- Executable Spatial Plan Generation / Creativity / Spatial Commonsense:使用 GPT-4.1 作为 critic 模型按多个子维度打分,加权计算综合分(满分 10 分);不可执行的方案直接计 0 分
- Spatial Understanding:同样由 critic 模型评分
- Spatial Reasoning:直接计算 VQA 准确率(%)
- Overall:五个维度加权求和(满分 100)
实验结果¶
主要发现¶
评估 13 个 MLLM(7 个闭源 + 6 个开源),全部 zero-shot:
| 模型 | 可执行规划 | 空间理解 | 空间推理 | 创造力 | 空间常识 | Overall |
|---|---|---|---|---|---|---|
| GPT-4o | 3.27 | 4.75 | 24.4% | 2.73 | 7.32 | 41.02 |
| Claude-3.7-Sonnet | 3.48 | 5.07 | 17.6% | 3.10 | 6.94 | 40.70 |
| Gemini-1.5-Pro | 3.53 | 4.80 | 16.9% | 2.73 | 7.52 | 40.54 |
| GPT-4o-mini | 2.08 | 2.52 | 26.7% | 2.38 | 7.14 | 33.58 |
| Qwen2.5VL-7B | 1.29 | 1.12 | 16.0% | 1.34 | 6.30 | 23.30 |
| InternVL2.5-8B | 0.68 | 0.62 | 20.4% | 0.66 | 5.62 | 19.24 |
关键观察¶
- 整体表现极差:最强的 GPT-4o 仅得 41.02/100,不到满分一半,说明空间规划对现有 MLLM 仍是重大挑战
- 开源 vs 闭源差距悬殊:闭源模型平均 OSR(输出成功率)93.40%,开源模型远低于此——很多开源模型根本无法生成合法的 3D 蓝图矩阵
- 空间推理令人意外:GPT-4o-mini(26.7%)反超 GPT-4o(24.4%),说明通用能力更强不等于空间推理更好;多数模型 <25%,接近随机水平
- 空间常识相对最好:闭源模型 6.8-7.5 分(满分 10),说明 MLLM 已有一定日常空间常识,但这不能迁移到空间规划执行
三类核心失败模式¶
- 空间误解(Spatial Misunderstanding):Agent 频繁误解 3D 位置关系,如 Claude-3.5-Sonnet 把奥运五环叠在一起而非平铺在同一平面——缺乏空间接地能力
- 实现鸿沟(Implementation Gap):Agent 能用文字描述合理的规划方案,但无法将其转化为精确的蓝图矩阵——方块索引错误、朝向错误、空间逻辑不一致导致解析/执行失败
- 复杂度退化(Structural Degeneration):当任务要求非立方体、非对称或创意设计时,Agent 倾向于退化为简单盒状输出或混乱结果——从基础模式到复杂建筑概念的缩放能力有限
亮点 / 我学到了什么¶
- 从"理解"到"执行"是 Agent 空间智能的核心瓶颈:VQA 准确率与空间规划能力之间几乎不存在正相关,这对整个空间智能研究领域是重要警示
- 心理旋转实验引入 AI 评测的思路很巧妙:用经典认知心理学范式构造空间推理测试,既有理论支撑又可控制难度
- 无限扩展范式设计精妙:通过 mineflayer 自动提取玩家建筑的方块信息 → 过滤空气块 → 生成标准化数据格式,实现了 benchmark 的持续扩容
- 创造力作为评估维度的引入:虽然主观性较强,但确实是 AGI 评估中不可回避的维度,且通过 MLLM critic + 人工评估的双重机制降低了偏差
- Implementation Gap 的概念值得推广:可以迁移到其他 Agent 任务中——很多 Agent 能"说"但不能"做"
局限性¶
- Minecraft 离散方块世界大幅简化了连续空间规划的复杂性(无需处理连续坐标、碰撞检测、物理约束)
- 创造力评估依赖 MLLM critic(GPT-4.1),其自身的空间理解能力也有限,评分可靠性存疑
- 仅测试 zero-shot 设置,未探索 few-shot / chain-of-thought / 专门微调对空间规划的提升效果
- 未与 RL-based Agent(如 VPT、Voyager)进行系统对比,仅聚焦 MLLM-based 方案
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统评估 MLLM 空间规划(而非空间理解)能力的 benchmark,填补了从理解到执行的评估空白
- 实验充分度: ⭐⭐⭐⭐ 4000 任务 × 13 模型 × 5 维度评估 + 详细的失败案例分析
- 写作质量: ⭐⭐⭐⭐ 结构清晰,任务定义严谨,可视化丰富
- 对我的价值: ⭐⭐⭐ Agent 空间规划能力评估的重要参考;Implementation Gap 概念可迁移到其他 Agent 研究