Blueprint-Bench: Comparing Spatial Intelligence of LLMs, Agents and Image Models¶

会议: ICLR 2026
arXiv: 2509.25229
代码: https://github.com/AndonLabs/Blueprint-Bench-generation (有)
领域: 空间推理评测 / Benchmark
关键词: 空间智能, 平面图生成, benchmark, LLM评测, 图像生成模型评测

一句话总结¶

Blueprint-Bench 通过"从公寓内部照片生成 2D 平面图"的任务来评测 AI 模型的空间推理能力，结果显示大多数 LLM、图像生成模型和 Agent 系统的表现接近或低于随机基线，揭示了当前 AI 在空间智能上的重大盲区。

领域现状：LLM 展现出越来越多的涌现能力，成功完成了远超训练范围的任务；新一代图像生成模型（GPT-Image、NanoBanana）也展示出更强的推理能力
现有痛点：
对 LLM 的评测主要集中在文本/代码/数学等领域，缺少空间推理的系统化评测
图像生成模型几乎没有定量的智能评测——GPT-Image 发布时甚至没有一个数值图表
ARC benchmark 输入和任务都不在 LLM 训练分布内，无法区分"输入不理解"还是"任务不会做"
核心矛盾：图像输入完全在模型训练分布内（公寓照片），但空间重建任务不是——这允许精确定位空间推理能力的缺失
本文要解决什么：首个可以跨架构（LLM / 图像生成 / Agent）横向比较空间智能的数值化 benchmark
切入角度：从照片到平面图需要真正的空间智能——推断房间布局、理解连通性、保持一致的尺度
核心 idea 一句话：用一个输入在训练分布内但任务在分布外的 benchmark，揭示 AI 模型在空间推理上的系统性缺陷

50 套公寓，每套约 20 张室内照片 + 对应的标准化平面图真值。模型接收照片和格式规范，生成平面图图像。评测算法从图像中提取房间连通图和面积排序，与真值比较得到相似性分数。

数据集设计:
做什么：50 套公寓，每套 ~20 张内部照片 + 标准化平面图
核心思路：制定 9 条严格格式规则（黑墙/绿门/红点房间标记/纯白背景等），确保评测算法能稳健地解析任何符合规则的输出
设计动机：在当前模型能力水平下，牺牲一定表达力换取评分的可靠性是合理的权衡
跨模态/跨架构评测:
做什么：评测三类模型——LLM（GPT-5、Claude 4 Opus、Gemini 2.5 Pro、Grok-4）、图像生成模型（GPT-Image、NanoBanana）、Agent 系统（Codex CLI、Claude Code）
LLM 生成 SVG 代码再转图像；图像模型直接生成图像；Agent 在 Docker 环境中迭代生成
设计动机：首次实现不同架构类型的 AI 模型在同一任务上的公平对比
两阶段评测算法——提取+评分:
提取：HSV 颜色过滤检测红色圆心（房间位置）→ flood-fill 分割房间边界 → 扫描墙壁边界检测绿色门 → 按面积排序分配房间 ID
评分：6 个相似性分量的加权平均——边重叠 Jaccard (50%)、度相关(20%)、图密度匹配(10%)、房间数准确率(10%)、门数准确率(5%)、门方向分布(5%)
归一化到 [0, 1]，0=完全错误，1=完美匹配

模型类型	模型	平均分	vs 随机基线
人类	Human	显著高于所有 AI	≫ 基线
LLM	GPT-5	统计显著高于基线	+（微弱）
LLM	Gemini 2.5 Pro	统计显著高于基线	+（微弱）
LLM	GPT-5-mini	统计显著高于基线	+（微弱）
LLM	Grok-4	统计显著高于基线	+（微弱）
LLM	Claude 4 Opus	接近基线	≈
图像生成	GPT-Image	接近基线	≈（但指令遵循好）
图像生成	NanoBanana	远低于基线	≪（指令遵循差）
Agent	Codex CLI	接近基线	≈
Agent	Claude Code	接近基线	≈