Can Multimodal Large Language Models Understand Spatial Relations?¶
会议: ACL 2025 (Long Paper)
arXiv: 2505.19015
代码: https://github.com/ziyan-xiaoyu/SpatialMQA.git
领域: 多模态VLM
关键词: 空间关系推理, MLLM评测, SpatialMQA, 视角替换, 基准测试
一句话总结¶
提出SpatialMQA基准,通过5,392个基于COCO2017的人工标注多选题样本(无bbox、含视角替换、排除纯知识可答题),评测MLLM的空间关系推理能力,发现最强模型SpaceLLaVA仅达48.14%远低于人类98.40%。
背景与动机¶
现有空间关系推理基准存在三大问题:(1) 依赖bbox框定主体/客体,但有些实体(如天空、太阳)无法用bbox表示,且bbox使模型无需真正理解图像就能作答;(2) 忽视视角替换(第一人称、第三人称),而现实应用如自动驾驶需要从不同视角理解空间关系;(3) 部分问题可以仅凭先验知识无需看图就能回答(如"书在公交车上面"几乎必然为否),无法真正评估图像理解能力。这使得现有基准无法全面评估MLLM在真实世界中的空间推理能力。
核心问题¶
如何设计一个既不依赖bbox、又包含多种视角(画外观察者、第一人称、第三人称)、同时排除纯知识可答问题的空间关系推理基准?让MLLM真正需要"看图"才能答题,从而暴露它们在空间理解上的真实水平。
方法详解¶
整体框架¶
SpatialMQA是一个多选题空间关系推理基准。输入为图像+文本问题+选项,输出为6种空间关系之一(left of, right of, in front of, behind, on/above, below)。基于以真实世界(客观世界)为参照系的空间坐标系定义,利用COCO2017图像由人工标注构建。
关键设计¶
-
客观世界参照系的空间关系定义:定义以重力方向为下、观察者为原点的坐标系(X轴左右、Y轴前后、Z轴上下),所有标注统一以此客观世界坐标系为参照,避免SpatialSense等基准中"天空在森林后面"这种非客观标注。
-
三种视角类型的问题设计:(a) 画外视角(Out-of-image, Q1)——观察者在图像外部,直接问两个实体的空间关系;(b) 第一人称视角(In-image first-person, Q2)——假设"你"是图中某个实体,从该实体视角问空间关系;(c) 第三人称视角(In-image third-person, Q3)——假设"你"是图中第三个生物实体,从其视角判断另外两个实体的关系。Q2占60%、Q1占40%、Q3因需三个生物实体而数量较少(5.76%)。
-
三轮质控标注流程:第一轮三名标注员各标注10,000张图;第二轮两名检查员并行检查(一人验证是否可凭知识无图作答、一人验证实体清晰度),不合格返回修正至90%准确率;第三轮主作者随机抽查20%,迭代至95%准确率。最终得到5,392个高质量样本。
损失函数 / 训练策略¶
开源模型用LoRA微调(LLaVA/SpaceLLaVA学习率2e-4、余弦调度、10轮),闭源模型用zero-shot和few-shot ICL。训练集3,780/验证集536/测试集1,076。
实验关键数据¶
| 模型 | 设定 | Accuracy |
|---|---|---|
| SpaceLLaVA | LoRA | 48.14% |
| LLaVA1.5-7B | LoRA | 46.85% |
| InstructBLIP-3B | LoRA | 42.38% |
| GPT-4o | 0-shot | 40.20% |
| Gemini-1.5-flash | 3-shot | 38.00% |
| Random | - | 27.20% |
| Human | - | 98.40% |
| Human (text-only) | - | 24.40% |
消融实验要点¶
- 视角影响:Q3(第三人称)对所有模型最难,SpaceLLaVA在Q3上准确率58.82%但Q2仅42.37%,说明模型难以进行视角转换推理。
- 空间轴差异:SpaceLLaVA在X轴(左/右)和Z轴(上/下)表现较好(56%/31.41%),但Y轴(前/后)推理不均衡(51.85%),模型在各空间维度表现高度不平衡。
- ICL方向性:GPT-4o增加ICL样本反而掉点(从40.20%到37.80%),因为ICL样本与问题类型不对齐;Gemini则在不对齐情况下仍然提升。
- Text-only极低:人类无图作答仅24.40%≈随机,500样本中仅3个可凭知识作答,验证了数据质量。
亮点¶
- 质量控制极强的人工标注流程,三轮迭代确保数据可靠性
- 视角替换设计独特——特别是第三人称视角,是以往基准缺失的维度
- 实验揭示了MLLM空间理解的巨大gap(最好48.14% vs 人类98.40%),说明当前模型远未真正理解空间关系
- 深入的错误类型分析(FRS视角替换失败最多、IRSO实体识别错误、LCR常识推理不足、IILN字母数字识别错误)
局限性 / 可改进方向¶
- 训练集仅3,780样本,规模有限,不足以full fine-tune大模型
- 仅覆盖6种基本空间关系,未涉及更复杂的关系(如"之间"、"围绕"、"穿过"等)
- 图像来自COCO2017,场景多为日常,缺少自动驾驶、医学影像等专业场景
- 未探索视频中的动态空间关系推理
与相关工作的对比¶
- vs VSR (Liu et al. 2023):VSR只有二分类(true/false),仅6%覆盖第一人称视角,部分可凭知识无图作答;SpatialMQA是多选题,60%含视角替换,排除了纯知识可答题。
- vs SpatialSense+ (Wen et al. 2024):SpatialSense+仍依赖bbox;SpatialMQA去掉了bbox,更符合真实图像理解场景。
- vs EmbSpatial (Du et al. 2024):EmbSpatial面向embodied场景但未考虑视角替换;SpatialMQA系统性设计了三种视角问题。
启发与关联¶
- 空间理解是VLM实际应用(机器人导航、自动驾驶)的关键能力,当前模型的巨大差距说明这是一个值得深入研究的方向
- 可以探索在VLM训练中显式引入空间坐标系信息或3D几何先验来提升空间推理
- 错误分析中"视角替换失败"占比最大,暗示当前VLM缺乏perspective-taking能力,这可能需要通过具身学习或3D理解来增强
评分¶
- 新颖性: ⭐⭐⭐⭐ 视角替换+客观世界参照系的benchmark设计有新意,但本质仍是评测benchmark贡献
- 实验充分度: ⭐⭐⭐⭐ 测试了7个开源+2个闭源模型,消融充分,错误分析详细
- 写作质量: ⭐⭐⭐⭐ 问题和动机阐述清晰,图表丰富
- 价值: ⭐⭐⭐⭐ 揭示了MLLM在空间推理上的真实短板,对社区有实际指导意义