跳转至

Blueprint-Bench: Comparing Spatial Intelligence of LLMs, Agents and Image Models

会议: ICLR 2026
arXiv: 2509.25229
代码: https://github.com/AndonLabs/Blueprint-Bench-generation (有)
领域: 空间推理评测 / Benchmark
关键词: 空间智能, 平面图生成, benchmark, LLM评测, 图像生成模型评测

一句话总结

Blueprint-Bench 通过"从公寓内部照片生成 2D 平面图"的任务来评测 AI 模型的空间推理能力,结果显示大多数 LLM、图像生成模型和 Agent 系统的表现接近或低于随机基线,揭示了当前 AI 在空间智能上的重大盲区。

研究背景与动机

  1. 领域现状:LLM 展现出越来越多的涌现能力,成功完成了远超训练范围的任务;新一代图像生成模型(GPT-Image、NanoBanana)也展示出更强的推理能力
  2. 现有痛点
  3. 对 LLM 的评测主要集中在文本/代码/数学等领域,缺少空间推理的系统化评测
  4. 图像生成模型几乎没有定量的智能评测——GPT-Image 发布时甚至没有一个数值图表
  5. ARC benchmark 输入和任务都不在 LLM 训练分布内,无法区分"输入不理解"还是"任务不会做"
  6. 核心矛盾:图像输入完全在模型训练分布内(公寓照片),但空间重建任务不是——这允许精确定位空间推理能力的缺失
  7. 本文要解决什么:首个可以跨架构(LLM / 图像生成 / Agent)横向比较空间智能的数值化 benchmark
  8. 切入角度:从照片到平面图需要真正的空间智能——推断房间布局、理解连通性、保持一致的尺度
  9. 核心 idea 一句话:用一个输入在训练分布内但任务在分布外的 benchmark,揭示 AI 模型在空间推理上的系统性缺陷

方法详解

整体框架

50 套公寓,每套约 20 张室内照片 + 对应的标准化平面图真值。模型接收照片和格式规范,生成平面图图像。评测算法从图像中提取房间连通图和面积排序,与真值比较得到相似性分数。

关键设计

  1. 数据集设计:
  2. 做什么:50 套公寓,每套 ~20 张内部照片 + 标准化平面图
  3. 核心思路:制定 9 条严格格式规则(黑墙/绿门/红点房间标记/纯白背景等),确保评测算法能稳健地解析任何符合规则的输出
  4. 设计动机:在当前模型能力水平下,牺牲一定表达力换取评分的可靠性是合理的权衡

  5. 跨模态/跨架构评测:

  6. 做什么:评测三类模型——LLM(GPT-5、Claude 4 Opus、Gemini 2.5 Pro、Grok-4)、图像生成模型(GPT-Image、NanoBanana)、Agent 系统(Codex CLI、Claude Code)
  7. LLM 生成 SVG 代码再转图像;图像模型直接生成图像;Agent 在 Docker 环境中迭代生成
  8. 设计动机:首次实现不同架构类型的 AI 模型在同一任务上的公平对比

  9. 两阶段评测算法——提取+评分:

  10. 提取:HSV 颜色过滤检测红色圆心(房间位置)→ flood-fill 分割房间边界 → 扫描墙壁边界检测绿色门 → 按面积排序分配房间 ID
  11. 评分:6 个相似性分量的加权平均——边重叠 Jaccard (50%)、度相关(20%)、图密度匹配(10%)、房间数准确率(10%)、门数准确率(5%)、门方向分布(5%)
  12. 归一化到 [0, 1],0=完全错误,1=完美匹配

损失函数 / 训练策略

  • 无训练——纯评测 benchmark
  • 随机基线:用 LLM/图像模型在无图像输入时生成典型平面图,作为下界
  • 人类基线:给人同样的照片和规则,手动绘制平面图

实验关键数据

主实验 — 各模型平均相似性分数

模型类型 模型 平均分 vs 随机基线
人类 Human 显著高于所有 AI ≫ 基线
LLM GPT-5 统计显著高于基线 +(微弱)
LLM Gemini 2.5 Pro 统计显著高于基线 +(微弱)
LLM GPT-5-mini 统计显著高于基线 +(微弱)
LLM Grok-4 统计显著高于基线 +(微弱)
LLM Claude 4 Opus 接近基线
图像生成 GPT-Image 接近基线 ≈(但指令遵循好)
图像生成 NanoBanana 远低于基线 ≪(指令遵循差)
Agent Codex CLI 接近基线
Agent Claude Code 接近基线

关键发现

  • 空间智能是当前 AI 的显著盲区:大多数最强模型的表现接近或低于随机基线
  • 人类遥遥领先:所有人类平面图的房间连通性都正确,AI 则频繁出错
  • 图像生成模型特别弱:NanoBanana 严重无法遵循指令(始终包含家具等细节)
  • Agent 迭代改进无效:Agent 系统的多步修改并未带来相比单次生成的显著提升
  • GPT-5 是 LLM 中最好的但仍远低于人类
  • 有趣的是,GPT-Image 的指令遵循能力比 NanoBanana 好很多,但空间推理同样差

亮点与洞察

  • 输入在分布内但任务在分布外的评测设计非常巧妙——区别于 ARC(输入本身就 OOD),这里能精确定位"空间推理"这一能力缺陷
  • 跨架构横向对比的首创性:第一个能在同一任务上比较 LLM、图像生成模型和 Agent 的 benchmark
  • AI 安全视角:空间智能虽本身无害,但是危险应用(如军事机器人)的前提,评测有助于提前预警

局限性 / 可改进方向

  • 评分基于房间连通图和面积排序,不考虑房间类型和形状,对人类评估过于严苛
  • 房间面积排序错误会级联影响连通性评分(假阳性惩罚)
  • 仅 50 套公寓,数据规模较小
  • 平面图格式规则限制了模型的表达空间
  • 未评测专用空间推理系统(如 NeRF-based 方法),不是 SOTA 追求

相关工作与启发

  • vs ARC:ARC 的输入和任务都 OOD,Blueprint-Bench 输入 in-distribution 但任务 OOD——更精准地定位空间推理能力
  • vs 专用建筑 AI:本文不追求最佳平面图系统,而是度量通用模型的空间智能——评测视角不同
  • vs 图像生成 benchmark:现有 image gen benchmark 关注美学和语义一致性,Blueprint-Bench 关注空间推理智能

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个跨架构空间智能 benchmark,评测设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多种模型类型,有人类和随机基线,但数据集较小
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,评测方法描述详尽
  • 价值: ⭐⭐⭐⭐ 揭示了重要的能力盲区,对 AI 安全评估有参考意义