Can Multimodal Large Language Models Understand Spatial Relations?¶

会议: ACL 2025 (Long Paper)
arXiv: 2505.19015
代码: https://github.com/ziyan-xiaoyu/SpatialMQA.git
领域: 多模态VLM
关键词: 空间关系推理, MLLM评测, SpatialMQA, 视角替换, 基准测试

一句话总结¶

提出SpatialMQA基准，通过5,392个基于COCO2017的人工标注多选题样本（无bbox、含视角替换、排除纯知识可答题），评测MLLM的空间关系推理能力，发现最强模型SpaceLLaVA仅达48.14%远低于人类98.40%。

背景与动机¶

现有空间关系推理基准存在三大问题：(1) 依赖bbox框定主体/客体，但有些实体（如天空、太阳）无法用bbox表示，且bbox使模型无需真正理解图像就能作答；(2) 忽视视角替换（第一人称、第三人称），而现实应用如自动驾驶需要从不同视角理解空间关系；(3) 部分问题可以仅凭先验知识无需看图就能回答（如"书在公交车上面"几乎必然为否），无法真正评估图像理解能力。这使得现有基准无法全面评估MLLM在真实世界中的空间推理能力。

核心问题¶

如何设计一个既不依赖bbox、又包含多种视角（画外观察者、第一人称、第三人称）、同时排除纯知识可答问题的空间关系推理基准？让MLLM真正需要"看图"才能答题，从而暴露它们在空间理解上的真实水平。

方法详解¶

整体框架¶

SpatialMQA是一个多选题空间关系推理基准。输入为图像+文本问题+选项，输出为6种空间关系之一（left of, right of, in front of, behind, on/above, below）。基于以真实世界（客观世界）为参照系的空间坐标系定义，利用COCO2017图像由人工标注构建。

关键设计¶

客观世界参照系的空间关系定义：定义以重力方向为下、观察者为原点的坐标系（X轴左右、Y轴前后、Z轴上下），所有标注统一以此客观世界坐标系为参照，避免SpatialSense等基准中"天空在森林后面"这种非客观标注。
三种视角类型的问题设计：(a) 画外视角（Out-of-image, Q1）——观察者在图像外部，直接问两个实体的空间关系；(b) 第一人称视角（In-image first-person, Q2）——假设"你"是图中某个实体，从该实体视角问空间关系；(c) 第三人称视角（In-image third-person, Q3）——假设"你"是图中第三个生物实体，从其视角判断另外两个实体的关系。Q2占60%、Q1占40%、Q3因需三个生物实体而数量较少（5.76%）。
三轮质控标注流程：第一轮三名标注员各标注10,000张图；第二轮两名检查员并行检查（一人验证是否可凭知识无图作答、一人验证实体清晰度），不合格返回修正至90%准确率；第三轮主作者随机抽查20%，迭代至95%准确率。最终得到5,392个高质量样本。

损失函数 / 训练策略¶

开源模型用LoRA微调（LLaVA/SpaceLLaVA学习率2e-4、余弦调度、10轮），闭源模型用zero-shot和few-shot ICL。训练集3,780/验证集536/测试集1,076。

实验关键数据¶

模型	设定	Accuracy
SpaceLLaVA	LoRA	48.14%
LLaVA1.5-7B	LoRA	46.85%
InstructBLIP-3B	LoRA	42.38%
GPT-4o	0-shot	40.20%
Gemini-1.5-flash	3-shot	38.00%
Random	-	27.20%
Human	-	98.40%
Human (text-only)	-	24.40%

消融实验要点¶

视角影响：Q3（第三人称）对所有模型最难，SpaceLLaVA在Q3上准确率58.82%但Q2仅42.37%，说明模型难以进行视角转换推理。
空间轴差异：SpaceLLaVA在X轴（左/右）和Z轴（上/下）表现较好(56%/31.41%)，但Y轴（前/后）推理不均衡（51.85%），模型在各空间维度表现高度不平衡。
ICL方向性：GPT-4o增加ICL样本反而掉点（从40.20%到37.80%），因为ICL样本与问题类型不对齐；Gemini则在不对齐情况下仍然提升。
Text-only极低：人类无图作答仅24.40%≈随机，500样本中仅3个可凭知识作答，验证了数据质量。

亮点¶

质量控制极强的人工标注流程，三轮迭代确保数据可靠性
视角替换设计独特——特别是第三人称视角，是以往基准缺失的维度
实验揭示了MLLM空间理解的巨大gap（最好48.14% vs 人类98.40%），说明当前模型远未真正理解空间关系
深入的错误类型分析（FRS视角替换失败最多、IRSO实体识别错误、LCR常识推理不足、IILN字母数字识别错误）

局限性 / 可改进方向¶

训练集仅3,780样本，规模有限，不足以full fine-tune大模型
仅覆盖6种基本空间关系，未涉及更复杂的关系（如"之间"、"围绕"、"穿过"等）
图像来自COCO2017，场景多为日常，缺少自动驾驶、医学影像等专业场景
未探索视频中的动态空间关系推理

与相关工作的对比¶

vs VSR (Liu et al. 2023)：VSR只有二分类（true/false），仅6%覆盖第一人称视角，部分可凭知识无图作答；SpatialMQA是多选题，60%含视角替换，排除了纯知识可答题。
vs SpatialSense+ (Wen et al. 2024)：SpatialSense+仍依赖bbox；SpatialMQA去掉了bbox，更符合真实图像理解场景。
vs EmbSpatial (Du et al. 2024)：EmbSpatial面向embodied场景但未考虑视角替换；SpatialMQA系统性设计了三种视角问题。

启发与关联¶

空间理解是VLM实际应用（机器人导航、自动驾驶）的关键能力，当前模型的巨大差距说明这是一个值得深入研究的方向
可以探索在VLM训练中显式引入空间坐标系信息或3D几何先验来提升空间推理
错误分析中"视角替换失败"占比最大，暗示当前VLM缺乏perspective-taking能力，这可能需要通过具身学习或3D理解来增强

评分¶

新颖性: ⭐⭐⭐⭐ 视角替换+客观世界参照系的benchmark设计有新意，但本质仍是评测benchmark贡献
实验充分度: ⭐⭐⭐⭐ 测试了7个开源+2个闭源模型，消融充分，错误分析详细
写作质量: ⭐⭐⭐⭐ 问题和动机阐述清晰，图表丰富
价值: ⭐⭐⭐⭐ 揭示了MLLM在空间推理上的真实短板，对社区有实际指导意义