跳转至

Can Multimodal Large Language Models Understand Spatial Relations?

会议: ACL 2025 (Long Paper)
arXiv: 2505.19015
代码: https://github.com/ziyan-xiaoyu/SpatialMQA.git
领域: 多模态VLM
关键词: 空间关系推理, MLLM评测, SpatialMQA, 视角替换, 基准测试

一句话总结

提出SpatialMQA基准,通过5,392个基于COCO2017的人工标注多选题样本(无bbox、含视角替换、排除纯知识可答题),评测MLLM的空间关系推理能力,发现最强模型SpaceLLaVA仅达48.14%远低于人类98.40%。

背景与动机

现有空间关系推理基准存在三大问题:(1) 依赖bbox框定主体/客体,但有些实体(如天空、太阳)无法用bbox表示,且bbox使模型无需真正理解图像就能作答;(2) 忽视视角替换(第一人称、第三人称),而现实应用如自动驾驶需要从不同视角理解空间关系;(3) 部分问题可以仅凭先验知识无需看图就能回答(如"书在公交车上面"几乎必然为否),无法真正评估图像理解能力。这使得现有基准无法全面评估MLLM在真实世界中的空间推理能力。

核心问题

如何设计一个既不依赖bbox、又包含多种视角(画外观察者、第一人称、第三人称)、同时排除纯知识可答问题的空间关系推理基准?让MLLM真正需要"看图"才能答题,从而暴露它们在空间理解上的真实水平。

方法详解

整体框架

SpatialMQA是一个多选题空间关系推理基准。输入为图像+文本问题+选项,输出为6种空间关系之一(left of, right of, in front of, behind, on/above, below)。基于以真实世界(客观世界)为参照系的空间坐标系定义,利用COCO2017图像由人工标注构建。

关键设计

  1. 客观世界参照系的空间关系定义:定义以重力方向为下、观察者为原点的坐标系(X轴左右、Y轴前后、Z轴上下),所有标注统一以此客观世界坐标系为参照,避免SpatialSense等基准中"天空在森林后面"这种非客观标注。

  2. 三种视角类型的问题设计:(a) 画外视角(Out-of-image, Q1)——观察者在图像外部,直接问两个实体的空间关系;(b) 第一人称视角(In-image first-person, Q2)——假设"你"是图中某个实体,从该实体视角问空间关系;(c) 第三人称视角(In-image third-person, Q3)——假设"你"是图中第三个生物实体,从其视角判断另外两个实体的关系。Q2占60%、Q1占40%、Q3因需三个生物实体而数量较少(5.76%)。

  3. 三轮质控标注流程:第一轮三名标注员各标注10,000张图;第二轮两名检查员并行检查(一人验证是否可凭知识无图作答、一人验证实体清晰度),不合格返回修正至90%准确率;第三轮主作者随机抽查20%,迭代至95%准确率。最终得到5,392个高质量样本。

损失函数 / 训练策略

开源模型用LoRA微调(LLaVA/SpaceLLaVA学习率2e-4、余弦调度、10轮),闭源模型用zero-shot和few-shot ICL。训练集3,780/验证集536/测试集1,076。

实验关键数据

模型 设定 Accuracy
SpaceLLaVA LoRA 48.14%
LLaVA1.5-7B LoRA 46.85%
InstructBLIP-3B LoRA 42.38%
GPT-4o 0-shot 40.20%
Gemini-1.5-flash 3-shot 38.00%
Random - 27.20%
Human - 98.40%
Human (text-only) - 24.40%

消融实验要点

  • 视角影响:Q3(第三人称)对所有模型最难,SpaceLLaVA在Q3上准确率58.82%但Q2仅42.37%,说明模型难以进行视角转换推理。
  • 空间轴差异:SpaceLLaVA在X轴(左/右)和Z轴(上/下)表现较好(56%/31.41%),但Y轴(前/后)推理不均衡(51.85%),模型在各空间维度表现高度不平衡。
  • ICL方向性:GPT-4o增加ICL样本反而掉点(从40.20%到37.80%),因为ICL样本与问题类型不对齐;Gemini则在不对齐情况下仍然提升。
  • Text-only极低:人类无图作答仅24.40%≈随机,500样本中仅3个可凭知识作答,验证了数据质量。

亮点

  • 质量控制极强的人工标注流程,三轮迭代确保数据可靠性
  • 视角替换设计独特——特别是第三人称视角,是以往基准缺失的维度
  • 实验揭示了MLLM空间理解的巨大gap(最好48.14% vs 人类98.40%),说明当前模型远未真正理解空间关系
  • 深入的错误类型分析(FRS视角替换失败最多、IRSO实体识别错误、LCR常识推理不足、IILN字母数字识别错误)

局限性 / 可改进方向

  • 训练集仅3,780样本,规模有限,不足以full fine-tune大模型
  • 仅覆盖6种基本空间关系,未涉及更复杂的关系(如"之间"、"围绕"、"穿过"等)
  • 图像来自COCO2017,场景多为日常,缺少自动驾驶、医学影像等专业场景
  • 未探索视频中的动态空间关系推理

与相关工作的对比

  • vs VSR (Liu et al. 2023):VSR只有二分类(true/false),仅6%覆盖第一人称视角,部分可凭知识无图作答;SpatialMQA是多选题,60%含视角替换,排除了纯知识可答题。
  • vs SpatialSense+ (Wen et al. 2024):SpatialSense+仍依赖bbox;SpatialMQA去掉了bbox,更符合真实图像理解场景。
  • vs EmbSpatial (Du et al. 2024):EmbSpatial面向embodied场景但未考虑视角替换;SpatialMQA系统性设计了三种视角问题。

启发与关联

  • 空间理解是VLM实际应用(机器人导航、自动驾驶)的关键能力,当前模型的巨大差距说明这是一个值得深入研究的方向
  • 可以探索在VLM训练中显式引入空间坐标系信息或3D几何先验来提升空间推理
  • 错误分析中"视角替换失败"占比最大,暗示当前VLM缺乏perspective-taking能力,这可能需要通过具身学习或3D理解来增强

评分

  • 新颖性: ⭐⭐⭐⭐ 视角替换+客观世界参照系的benchmark设计有新意,但本质仍是评测benchmark贡献
  • 实验充分度: ⭐⭐⭐⭐ 测试了7个开源+2个闭源模型,消融充分,错误分析详细
  • 写作质量: ⭐⭐⭐⭐ 问题和动机阐述清晰,图表丰富
  • 价值: ⭐⭐⭐⭐ 揭示了MLLM在空间推理上的真实短板,对社区有实际指导意义