MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents¶

会议: NeurIPS 2025 (Datasets & Benchmarks)
arXiv: 2505.20148
代码: 项目主页
领域: 多模态VLM / Agent / 空间规划
关键词: spatial planning, Minecraft, open-world agent, MLLM benchmark, spatial intelligence

一句话总结¶

基于 Minecraft 构建空间规划基准 MineAnyBuild，要求 AI Agent 根据多模态指令生成可执行的建筑蓝图矩阵，包含 4000 个任务和 500+ 建筑/装饰资产，从空间理解、空间推理、创造力和空间常识四个维度系统评估 MLLM 的空间规划能力，揭示即便 GPT-4o 整体得分仅 41.02/100，开源模型更差。

背景与动机¶

空间规划是空间智能的核心能力：需要理解并规划物体在 3D 空间中的排列，广泛应用于机器人操作、自动装配、城市规划等场景
现有 benchmark 的关键缺陷：VSI-Bench、SpatialVLM、Lego-Puzzles 等主要以 VQA 形式评估空间理解/推理（如"这个物体在左边还是右边？"），但抽象的空间理解与具体的任务执行之间存在巨大 gap——能回答空间关系问题不等于能做空间规划
Minecraft 建筑任务的独特价值：离散方块世界简化了评估（精确的坐标对齐），同时保留了 3D 空间规划的核心挑战；建筑创作是 Minecraft 吸引数百万玩家的核心玩法，天然具备开放性和自由度

核心问题¶

MLLM-based Agent 能否将空间理解能力转化为具体的、可执行的空间规划？从"知道空间关系"到"生成 3D 建筑蓝图"之间的鸿沟有多大？

方法详解¶

整体框架¶

平台：Minecraft 3D 方块世界
输入：多模态人类指令（文本描述 + 参考图片）
输出：可执行的蓝图矩阵（blueprint matrix），由 mineflayer 模拟器自动在 Minecraft 中生成对应建筑
规模：4000 个精心策划的任务 + 500+ 建筑/室内装饰资产 + ~2000 个 VQA 对
扩展性：提供无限可扩展的数据收集范式，利用互联网上海量玩家 UGC 内容

五类任务设计¶

可执行空间规划生成（Executable Spatial Plan Generation）：给定抽象建筑指令（如"建造一个苹果，用 black_terracotta 做茎"），Agent 需要思考子结构分解和组合连接，生成可执行的 3D 蓝图矩阵。类比现实中建筑师从文字需求到施工图的过程
空间理解（Spatial Understanding）：给定逐步指令（含每个方块的相对坐标映射表，如 Layer 2: "red_wool": [(0,0),(1,0)]），Agent 需将相对坐标转化为完整的蓝图矩阵，模拟人类在自我中心与世界中心视角之间的认知映射
创造力（Creativity）：给定指令后 Agent 需头脑风暴方块组合方案，在满足结构约束的同时最大化美学创意（如用各种楼梯和石板设计中式或城堡风格屋顶）。通过 MLLM critic 模型 + 人工评估打分
空间推理（Spatial Reasoning）：借鉴经典心理学心理旋转实验，构建 48 个由方块组成的几何刺激物，生成 1900 个任务——Agent 需判断旋转后的几何体是否与参考刺激一致（干扰项为镜像翻转+额外旋转）
空间常识（Spatial Commonsense）：评估 Agent 对日常空间规则的直觉理解，如"冰箱不能放在浴室""卧室的朝向"等物体摆放合理性判断

数据构建流程¶

数据收集：从 GrabCraft、Minecraft Official Wiki 等网站收集 ~7000 个建筑；从创作者分享平台收集 ~500 个室内装饰资产；空间推理任务参考 Shepard & Metzler 心理旋转实验设计刺激物
质量检查：代码自动过滤 + 人工审核，去除问题数据
数据标注：人工或 MLLM 辅助标注指令，使其引导 Agent 思考子结构分解与空间规划；空间常识任务由人工手动设计 VQA 对

评估指标¶

Executable Spatial Plan Generation / Creativity / Spatial Commonsense：使用 GPT-4.1 作为 critic 模型按多个子维度打分，加权计算综合分（满分 10 分）；不可执行的方案直接计 0 分
Spatial Understanding：同样由 critic 模型评分
Spatial Reasoning：直接计算 VQA 准确率（%）
Overall：五个维度加权求和（满分 100）

实验结果¶

主要发现¶

评估 13 个 MLLM（7 个闭源 + 6 个开源），全部 zero-shot：

模型	可执行规划	空间理解	空间推理	创造力	空间常识	Overall
GPT-4o	3.27	4.75	24.4%	2.73	7.32	41.02
Claude-3.7-Sonnet	3.48	5.07	17.6%	3.10	6.94	40.70
Gemini-1.5-Pro	3.53	4.80	16.9%	2.73	7.52	40.54
GPT-4o-mini	2.08	2.52	26.7%	2.38	7.14	33.58
Qwen2.5VL-7B	1.29	1.12	16.0%	1.34	6.30	23.30
InternVL2.5-8B	0.68	0.62	20.4%	0.66	5.62	19.24

关键观察¶

整体表现极差：最强的 GPT-4o 仅得 41.02/100，不到满分一半，说明空间规划对现有 MLLM 仍是重大挑战
开源 vs 闭源差距悬殊：闭源模型平均 OSR（输出成功率）93.40%，开源模型远低于此——很多开源模型根本无法生成合法的 3D 蓝图矩阵
空间推理令人意外：GPT-4o-mini（26.7%）反超 GPT-4o（24.4%），说明通用能力更强不等于空间推理更好；多数模型 <25%，接近随机水平
空间常识相对最好：闭源模型 6.8-7.5 分（满分 10），说明 MLLM 已有一定日常空间常识，但这不能迁移到空间规划执行

三类核心失败模式¶

空间误解（Spatial Misunderstanding）：Agent 频繁误解 3D 位置关系，如 Claude-3.5-Sonnet 把奥运五环叠在一起而非平铺在同一平面——缺乏空间接地能力
实现鸿沟（Implementation Gap）：Agent 能用文字描述合理的规划方案，但无法将其转化为精确的蓝图矩阵——方块索引错误、朝向错误、空间逻辑不一致导致解析/执行失败
复杂度退化（Structural Degeneration）：当任务要求非立方体、非对称或创意设计时，Agent 倾向于退化为简单盒状输出或混乱结果——从基础模式到复杂建筑概念的缩放能力有限

亮点 / 我学到了什么¶

从"理解"到"执行"是 Agent 空间智能的核心瓶颈：VQA 准确率与空间规划能力之间几乎不存在正相关，这对整个空间智能研究领域是重要警示
心理旋转实验引入 AI 评测的思路很巧妙：用经典认知心理学范式构造空间推理测试，既有理论支撑又可控制难度
无限扩展范式设计精妙：通过 mineflayer 自动提取玩家建筑的方块信息 → 过滤空气块 → 生成标准化数据格式，实现了 benchmark 的持续扩容
创造力作为评估维度的引入：虽然主观性较强，但确实是 AGI 评估中不可回避的维度，且通过 MLLM critic + 人工评估的双重机制降低了偏差
Implementation Gap 的概念值得推广：可以迁移到其他 Agent 任务中——很多 Agent 能"说"但不能"做"

局限性¶

Minecraft 离散方块世界大幅简化了连续空间规划的复杂性（无需处理连续坐标、碰撞检测、物理约束）
创造力评估依赖 MLLM critic（GPT-4.1），其自身的空间理解能力也有限，评分可靠性存疑
仅测试 zero-shot 设置，未探索 few-shot / chain-of-thought / 专门微调对空间规划的提升效果
未与 RL-based Agent（如 VPT、Voyager）进行系统对比，仅聚焦 MLLM-based 方案

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统评估 MLLM 空间规划（而非空间理解）能力的 benchmark，填补了从理解到执行的评估空白
实验充分度: ⭐⭐⭐⭐ 4000 任务 × 13 模型 × 5 维度评估 + 详细的失败案例分析
写作质量: ⭐⭐⭐⭐ 结构清晰，任务定义严谨，可视化丰富
对我的价值: ⭐⭐⭐ Agent 空间规划能力评估的重要参考；Implementation Gap 概念可迁移到其他 Agent 研究