Blueprint-Bench: Comparing Spatial Intelligence of LLMs, Agents and Image Models¶
会议: ICLR 2026
arXiv: 2509.25229
代码: https://github.com/AndonLabs/Blueprint-Bench-generation (有)
领域: 空间推理评测 / Benchmark
关键词: 空间智能, 平面图生成, benchmark, LLM评测, 图像生成模型评测
一句话总结¶
Blueprint-Bench 通过"从公寓内部照片生成 2D 平面图"的任务来评测 AI 模型的空间推理能力,结果显示大多数 LLM、图像生成模型和 Agent 系统的表现接近或低于随机基线,揭示了当前 AI 在空间智能上的重大盲区。
研究背景与动机¶
- 领域现状:LLM 展现出越来越多的涌现能力,成功完成了远超训练范围的任务;新一代图像生成模型(GPT-Image、NanoBanana)也展示出更强的推理能力
- 现有痛点:
- 对 LLM 的评测主要集中在文本/代码/数学等领域,缺少空间推理的系统化评测
- 图像生成模型几乎没有定量的智能评测——GPT-Image 发布时甚至没有一个数值图表
- ARC benchmark 输入和任务都不在 LLM 训练分布内,无法区分"输入不理解"还是"任务不会做"
- 核心矛盾:图像输入完全在模型训练分布内(公寓照片),但空间重建任务不是——这允许精确定位空间推理能力的缺失
- 本文要解决什么:首个可以跨架构(LLM / 图像生成 / Agent)横向比较空间智能的数值化 benchmark
- 切入角度:从照片到平面图需要真正的空间智能——推断房间布局、理解连通性、保持一致的尺度
- 核心 idea 一句话:用一个输入在训练分布内但任务在分布外的 benchmark,揭示 AI 模型在空间推理上的系统性缺陷
方法详解¶
整体框架¶
50 套公寓,每套约 20 张室内照片 + 对应的标准化平面图真值。模型接收照片和格式规范,生成平面图图像。评测算法从图像中提取房间连通图和面积排序,与真值比较得到相似性分数。
关键设计¶
- 数据集设计:
- 做什么:50 套公寓,每套 ~20 张内部照片 + 标准化平面图
- 核心思路:制定 9 条严格格式规则(黑墙/绿门/红点房间标记/纯白背景等),确保评测算法能稳健地解析任何符合规则的输出
-
设计动机:在当前模型能力水平下,牺牲一定表达力换取评分的可靠性是合理的权衡
-
跨模态/跨架构评测:
- 做什么:评测三类模型——LLM(GPT-5、Claude 4 Opus、Gemini 2.5 Pro、Grok-4)、图像生成模型(GPT-Image、NanoBanana)、Agent 系统(Codex CLI、Claude Code)
- LLM 生成 SVG 代码再转图像;图像模型直接生成图像;Agent 在 Docker 环境中迭代生成
-
设计动机:首次实现不同架构类型的 AI 模型在同一任务上的公平对比
-
两阶段评测算法——提取+评分:
- 提取:HSV 颜色过滤检测红色圆心(房间位置)→ flood-fill 分割房间边界 → 扫描墙壁边界检测绿色门 → 按面积排序分配房间 ID
- 评分:6 个相似性分量的加权平均——边重叠 Jaccard (50%)、度相关(20%)、图密度匹配(10%)、房间数准确率(10%)、门数准确率(5%)、门方向分布(5%)
- 归一化到 [0, 1],0=完全错误,1=完美匹配
损失函数 / 训练策略¶
- 无训练——纯评测 benchmark
- 随机基线:用 LLM/图像模型在无图像输入时生成典型平面图,作为下界
- 人类基线:给人同样的照片和规则,手动绘制平面图
实验关键数据¶
主实验 — 各模型平均相似性分数¶
| 模型类型 | 模型 | 平均分 | vs 随机基线 |
|---|---|---|---|
| 人类 | Human | 显著高于所有 AI | ≫ 基线 |
| LLM | GPT-5 | 统计显著高于基线 | +(微弱) |
| LLM | Gemini 2.5 Pro | 统计显著高于基线 | +(微弱) |
| LLM | GPT-5-mini | 统计显著高于基线 | +(微弱) |
| LLM | Grok-4 | 统计显著高于基线 | +(微弱) |
| LLM | Claude 4 Opus | 接近基线 | ≈ |
| 图像生成 | GPT-Image | 接近基线 | ≈(但指令遵循好) |
| 图像生成 | NanoBanana | 远低于基线 | ≪(指令遵循差) |
| Agent | Codex CLI | 接近基线 | ≈ |
| Agent | Claude Code | 接近基线 | ≈ |
关键发现¶
- 空间智能是当前 AI 的显著盲区:大多数最强模型的表现接近或低于随机基线
- 人类遥遥领先:所有人类平面图的房间连通性都正确,AI 则频繁出错
- 图像生成模型特别弱:NanoBanana 严重无法遵循指令(始终包含家具等细节)
- Agent 迭代改进无效:Agent 系统的多步修改并未带来相比单次生成的显著提升
- GPT-5 是 LLM 中最好的但仍远低于人类
- 有趣的是,GPT-Image 的指令遵循能力比 NanoBanana 好很多,但空间推理同样差
亮点与洞察¶
- 输入在分布内但任务在分布外的评测设计非常巧妙——区别于 ARC(输入本身就 OOD),这里能精确定位"空间推理"这一能力缺陷
- 跨架构横向对比的首创性:第一个能在同一任务上比较 LLM、图像生成模型和 Agent 的 benchmark
- AI 安全视角:空间智能虽本身无害,但是危险应用(如军事机器人)的前提,评测有助于提前预警
局限性 / 可改进方向¶
- 评分基于房间连通图和面积排序,不考虑房间类型和形状,对人类评估过于严苛
- 房间面积排序错误会级联影响连通性评分(假阳性惩罚)
- 仅 50 套公寓,数据规模较小
- 平面图格式规则限制了模型的表达空间
- 未评测专用空间推理系统(如 NeRF-based 方法),不是 SOTA 追求
相关工作与启发¶
- vs ARC:ARC 的输入和任务都 OOD,Blueprint-Bench 输入 in-distribution 但任务 OOD——更精准地定位空间推理能力
- vs 专用建筑 AI:本文不追求最佳平面图系统,而是度量通用模型的空间智能——评测视角不同
- vs 图像生成 benchmark:现有 image gen benchmark 关注美学和语义一致性,Blueprint-Bench 关注空间推理智能
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个跨架构空间智能 benchmark,评测设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 覆盖多种模型类型,有人类和随机基线,但数据集较小
- 写作质量: ⭐⭐⭐⭐ 动机清晰,评测方法描述详尽
- 价值: ⭐⭐⭐⭐ 揭示了重要的能力盲区,对 AI 安全评估有参考意义