Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models¶

会议: ICLR 2026
arXiv: 2601.20354
代码: 有 (GitHub)
领域: 图像生成
关键词: 空间智能, 文本到图像生成, 基准评测, 信息密集提示, 数据中心范式

一句话总结¶

提出 SpatialGenEval 基准，通过 1,230 条长且信息密集的提示覆盖 10 个空间子领域，系统评估 23 个 SOTA T2I 模型的空间智能，揭示空间推理是主要瓶颈；同时构建 SpatialT2I 数据集实现数据中心的空间智能提升。

研究背景与动机¶

当前 T2I 模型在生成高保真图像方面表现优异，能够准确渲染场景中"是什么"（what），但在精确描绘物体"在哪里"（where）、"如何排列"（how）和"为什么交互"（why）等空间关系方面频繁失败。即使是 GPT-Image-1、Qwen-Image 等 SOTA 模型也会出现物体错位、方向错误、数值比较失败或因果交互渲染失败等问题。

现有基准的不足： 1. 提示信息稀疏：T2I-CompBench、GenEval 等使用简短提示，仅能验证物体存在和简单属性 2. 评估粒度粗糙：多采用分类或 Yes/No 问答，无法捕捉高阶空间能力 3. 缺少系统的空间智能分层：未区分感知、推理和交互等不同层次的空间能力

方法详解¶

整体框架¶

SpatialGenEval 的设计围绕四个核心原则：

长且信息密集的提示：每条提示约 60 词，密集包含 10 个互相关联的空间约束
全维度多选题评估：每条提示配 10 道多选题，覆盖所有空间子领域
图像依赖答案（无答案泄露）：不将生成提示发送给评估器
拒绝回答选项：每道多选题含 "E: None" 选项，避免强制选择错误答案

关键设计¶

1. 空间智能分层体系（10 个子领域）¶

SpatialGenEval 将空间智能分为 4 个层级、10 个子领域：

空间基础（S1/S2）：

子领域	评测内容
S1 物体类别	组合完整性——是否生成了所有提到的物体
S2 物体属性	属性绑定——颜色/形状/材质是否正确关联

空间感知（S3/S4/S5）：

子领域	评测内容
S3 空间位置	绝对/相对位置定位
S4 空间方向	旋转对齐（如面朝左、倒置）
S5 空间布局	多物体排列（线性序列、圆形等）

空间推理（S6/S7/S8）：

子领域	评测内容
S6 空间比较	相对定量属性（如大三倍）
S7 空间邻近	精细物理距离（接触、最近、远离）
S8 空间遮挡	3D 深度和物体层叠

空间交互（S9/S10）：

子领域	评测内容
S9 运动交互	动态状态或运动中的时刻
S10 因果交互	因果物理关系

2. 基准构建流程¶

提示生成：使用 Gemini 2.5 Pro，输入 25 个真实世界场景和 10 个空间子领域定义，生成信息密集的提示。每条提示无缝融合所有 10 个空间约束。

人工审核（Human-in-the-loop）： - 合并不自然的短句（如 "There is a robot. It is rusty." → "A rusty robot"） - 修正逻辑矛盾（如循环布局约束） - 替换生僻词（如 vermilion → bright red）

QA 生成与验证： - 每条提示自动生成 10 道多选题 - 人工检查答案泄露：确保问题中不含显式答案 - 程序化添加 "E: None" 选项

3. SpatialT2I 数据集（超越评估的数据中心范式）¶

额外构建 1,100 条提示，由 14 个 top 开源模型生成图像
Qwen2.5-VL-72B 评估质量，Gemini 2.5 Pro 重写提示确保一致性
最终得到 15,400 个文本-图像对
用于微调 SDXL、UniWorld-V1、OmniGen2

损失函数 / 训练策略¶

评估流程： - 主评估器：Qwen2.5-VL-72B（开源，保证可复现性） - 5 轮投票机制：仅当 MLLM 在 5 轮中至少 4 轮选择正确答案时算正确 - 最终分数：每个空间子领域的正确率

实验关键数据¶

主实验¶

表2：SpatialGenEval 排行榜（23 个模型）

模型	规模	Overall	基础 (S1/S2)	感知 (S3-S5)	推理 (S6-S8)	交互 (S9/S10)
SD-1.5	0.86B	28.5	8.5/33.7	19.5/29.2/38.2	12.8/37.7/15.6	42.0/47.6
FLUX.1-dev	12B	56.5	51.7/73.8	50.0/55.5/66.7	28.2/62.9/28.9	73.1/73.8
Qwen-Image	20B	60.6	61.0/77.2	55.6/56.7/69.7	28.6/67.7/30.8	78.1/80.2
GPT-Image-1	-	60.5	56.3/74.1	53.3/58.9/70.4	31.4/66.8/30.2	80.9/82.2
Seed Dream 4.0	-	62.7	59.9/80.2	57.2/58.9/70.1	32.1/68.3/33.8	83.0/83.8

表6：SpatialT2I 微调效果

模型	微调前 Overall	微调后 Overall	提升
SD-XL	41.2	45.4	+4.2%
UniWorld-V1	54.2	59.9	+5.7%
OmniGen2	56.4	60.8	+4.4%

消融实验¶

评估器一致性：GPT-4o 和 Qwen2.5-VL-72B 的模型排名完全一致，验证评估鲁棒性。

人类对齐研究：Gemini-2.5-Pro 达到 84.2% 平衡准确率，Qwen2.5-VL-72B 为 80.4%。

关键发现¶

空间推理是主要瓶颈：比较（Comparison）和遮挡（Occlusion）子任务得分常低于 30%，接近随机选择的 20%
开源模型正在追赶闭源：Qwen-Image (60.6%) vs Seed Dream 4.0 (62.7%)
文本编码器是关键：使用 LLM 编码器的模型（如 Qwen-Image）显著优于仅用 CLIP 的模型
统一架构更参数高效：7B 的 Bagel (57.0%) 接近 12B 的 FLUX.1-krea (58.5%)
数据中心范式有效：SpatialT2I 微调一致提升 4-6 个百分点

亮点与洞察¶

信息密集提示设计：将 10 个空间约束融合到单条 60 词提示中，避免了简单提示无法区分能力的问题
分层式空间智能定义：从基础→感知→推理→交互的递进结构清晰且可扩展
"E: None" 选项的工程设计：避免强制选择，提高评估准确性
SpatialT2I 的数据飞轮：评估基准的副产品可直接用于模型改进，形成闭环

局限性 / 可改进方向¶

最高分仅 ~63%，面向及格线水平——说明任务仍然极具挑战性
提示约 60 词可能超出某些 CLIP 编码器的有效处理长度（77 tokens）
场景覆盖25类，可进一步扩展到更多复杂交互场景
评估依赖 MLLM 判断，可能引入评估模型自身偏差
SpatialT2I 数据集质量受限于生成模型的当前能力

评分¶

新颖性：⭐⭐⭐⭐ — 首个系统性空间智能 T2I 评测基准
技术贡献：⭐⭐⭐⭐⭐ — 基准设计 + 数据集构建 + 大规模评测三位一体
实验充分度：⭐⭐⭐⭐⭐ — 23 个模型、多评估器验证、人类对齐
写作质量：⭐⭐⭐⭐ — 结构清晰，但表格较多
总体推荐：⭐⭐⭐⭐⭐ — 对 T2I 空间能力的全面透视，高影响力工作

Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

1. 空间智能分层体系（10 个子领域）¶

2. 基准构建流程¶

3. SpatialT2I 数据集（超越评估的数据中心范式）¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶

背景与动机¶

核心问题¶

方法详解¶

实验关键数据¶

亮点¶

局限性 / 可改进方向¶

与相关工作的对比¶

启发与关联¶

评分¶