Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting¶
会议: AAAI 2026 (Main Track)
arXiv: 2603.06663
代码: 无
领域: 多模态VLM
关键词: 视觉提示(Visual Prompting), 空间推理(Spatial Reasoning), 场景图(Scene Graph), 多模态语言模型, 零样本推理
一句话总结¶
提出 Graph-of-Mark (GoM),一种无需训练的像素级视觉提示方法,通过在输入图像上直接叠加深度感知的场景图(包含节点和有向边),显式编码物体间的空间关系,使多模态语言模型在 VQA 和定位任务中的零样本空间推理准确率最高提升 11 个百分点。
背景与动机¶
当前多模态语言模型(MLM)在处理视觉信息时,往往将图像视为一个"物体的集合"(bags of objects)——它们能识别出图中的"杯子"和"桌子",但在准确判断两者空间关系(左边?后面?上方?)时经常失败。这种缺陷源于:(1) 视觉编码器将图像转化为 token 时丢失了精细的关系信息;(2) 标准训练目标偏重全局图像理解和标签匹配,缺乏显式空间监督。
此前的解决思路主要有两类:一是对模型进行空间感知数据的微调(如 SpatialVLM),计算成本高;二是使用 Set-of-Mark (SoM) 等视觉提示技术,在图像上标注物体区域和编号。SoM 作为当前事实标准(de facto standard),已被证明能增强视觉 grounding 能力,但其核心局限在于:将标注的物体视为孤立实体,完全忽略了物体之间的空间关系。杯子和桌子各自有了编号,但它们之间是"在上方"还是"在旁边",模型仍然得自己猜。
核心问题¶
如何在不修改模型参数的前提下(training-free),通过修改输入图像本身,向 MLM 显式传达物体间的空间关系,从而激发模型潜在的空间推理能力?
这个问题之所以重要,是因为空间推理在机器人操控、导航、医学图像分析等下游任务中不可或缺,而当前主流 MLM 在这方面表现不佳。如果能通过一个即插即用(plug-and-play)的纯推理阶段方案解决,就可以零成本地增强任意已有模型。
方法详解¶
整体框架¶
GoM 将 SoM 的"集合标注"范式升级为"图标注"范式。核心思想是:在输入图像上叠加一个场景图,其中节点(nodes)代表物体,有向边(directed edges)代表物体间的空间关系。整个流程是一个四阶段流水线:
输入:原始图像 + 用户文本查询 → Stage 1: 检测与分割 → Stage 2: 关系估计 → Stage 3: 查询感知过滤 → Stage 4: 视觉渲染 → 输出:叠加场景图的增强图像,送入任意 MLM 进行推理。
关键设计¶
-
多检测器集成与精细分割:为确保场景覆盖率,GoM 使用三个互补的检测器:OWL-V2(开放词汇检测)、YOLOv8(高置信常见物体)、Mask R-CNN(鲁棒区域提议)。通过 Weighted Boxes Fusion (WBF) 融合重叠检测、去除冗余标注,再用 SAM-HQ(Segment Anything in High Quality)生成精确掩码。这种集成策略比单一检测器更全面,但也带来了显著的计算开销。
-
三维度空间关系估计:这是 GoM 相比 SoM 最核心的新增能力。对每对物体,从三个维度评估关系:
- 2D 方向关系:基于边界框中心坐标计算水平/垂直位移,用阈值 \(\tau_{dir}\) 判断"上方/下方/左/右"。公式为:\(R_{dir}(i,j) = \text{above} \iff \Delta y > |\Delta x| + \tau_{dir}\)
- 3D 深度关系:使用单目深度估计器 MiDaS 为每个物体分配相对深度值,通过阈值 \(\tau_z\) 判断"前方 (in_front_of) / 后方 (behind)"
-
近距离关系:计算物体间欧氏距离,判断"靠近/接触/非常近"
-
查询感知过滤 (Query-Aware Filtering):如果叠加所有物体间的所有关系,图像会变得杂乱不堪。GoM 使用文本查询进行语义相似度匹配,仅保留查询中提及的物体及其直接空间邻居,确保视觉提示与当前任务相关。
-
防碰撞视觉渲染:物体用彩色掩码和唯一 ID 高亮,关系用有向箭头绘制(从头实体指向尾实体)。一个多步冲突解决算法确保标注不遮挡物体本身——当标签发生重叠时,沿坐标轴迭代移动;若 ID 标记被移动过远,用虚线连回原始位置;多条箭头从同一物体出发时,赋予不同曲率半径以保证可区分性。
损失函数 / 训练策略¶
GoM 是一种无需训练(training-free)的推理阶段方法,不涉及损失函数或模型参数更新。所有组件(OWL-V2、YOLOv8、Mask R-CNN、SAM-HQ、MiDaS)均使用预训练权重,仅在推理时串联使用。超参数包括方向阈值 \(\tau_{dir}\) 和深度阈值 \(\tau_z\)。
实验关键数据¶
论文在 3 个开源 MLM(LlamaV-o1、Qwen-2.5-VL、Gemma-3)上评估,使用 4 个标准数据集(包括 GQA 用于空间推理、VQAv2 用于通用 VQA、RefCOCOg 用于指代表达理解等)。
| 评估维度 | 关键发现 | 量化结果 |
|---|---|---|
| 整体提升 | GoM vs 原始图像/SoM 基线 | 最高提升 11 个百分点 |
| 最优模型 | LlamaV-o1(已优化推理能力) | 绝对性能最高,GoM 进一步催化其潜在推理能力 |
| 场景图复杂度甜蜜点 | 3-10 个物体、4-16 个关系 | 超过 20 个物体后噪声开始干扰,收益递减 |
| 视觉图 vs 文本图 | 在图像上绘制 vs 以文本三元组形式提供 | 仅视觉图通常优于仅文本图 |
| 辅助文本描述 | 同时提供视觉图和文本图描述 | 进一步提升,但并非总是增量 |
消融实验要点¶
- 视觉图 vs 文本图的比较是本文最有价值的发现之一:MLM 更擅长从嵌入像素空间的结构信息中提取空间关系,而非从序列化文本描述中。这暗示视觉编码器保留了一定的图结构理解能力。
- 场景图密度的影响:当物体数超过 ~20 个时,叠加标注本身成为"噪声",模型开始被干扰。这揭示了视觉提示方法的一个基本矛盾——信息增益 vs 视觉干扰的平衡。
- 深度关系 (MiDaS) 的贡献:加入 3D 深度信息对涉及"前/后"判断的任务贡献显著,但对纯 2D 方向问题帮助有限。
- 查询感知过滤的必要性:无过滤版本性能明显下降,验证了选择性标注而非全场景标注的重要性。
亮点¶
- 从"集合"到"图"的范式升级:将 SoM 的物体标注范式从孤立节点扩展到包含关系边的图结构,概念简洁且直觉合理。这是一个"显然应该做但没人做"的工作。
- 纯视觉的结构信息传递:发现 MLM 可以直接从像素中解读图结构(箭头、标签),无需文本辅助,这个实验发现很有启发性。
- 即插即用的工程价值:training-free、不修改模型、可应用于任何 MLM,部署门槛低。
- 防碰撞渲染算法:解决了视觉标注遮挡原始内容的实际工程问题,包括标签移位、虚线回连、箭头曲率自适应等,细节考虑周到。
局限性 / 可改进方向¶
- 推理延迟高:使用 5 个预训练模型(3 检测器 + SAM-HQ + MiDaS)的串联流水线,推理开销远超直接将图像送入 MLM。论文未报告速度对比,这在实际部署中可能是致命问题。
- 依赖检测器质量:链条式依赖(检测 → 分割 → 深度估计 → 关系判断),任何一环的错误会级联放大。如果检测器漏掉关键物体或 MiDaS 深度估计不准,场景图本身就是错的。
- 仅限静态图像:未考虑视频场景中的时序空间关系,也未处理遮挡导致的不可见物体。
- 实验规模有限:仅测试 3 个开源 MLM,未包含 GPT-4V/4o、Claude、Gemini 等闭源模型。考虑到 SoM 最初是在 GPT-4V 上展示的,这个缺失比较遗憾。
- 密集场景退化:当物体过多(>20)时场景图反而引入噪声,这限制了方法在复杂真实场景(如街景、工厂车间)中的适用性。
- 关系类型固定:仅建模方向、深度和近距离三类关系,未覆盖功能性关系(如"支撑""包含")或语义关系(如"属于""使用中"),关系表达力较弱。
与相关工作的对比¶
-
vs. Set-of-Mark (SoM):GoM 是 SoM 的直接扩展——SoM 仅标注物体(节点),GoM 增加了物体间的空间关系(边)。GoM 在空间推理任务上明确优于 SoM。但 SoM 的优势在于简洁、低延迟、适用于更广泛的任务(不限于空间推理),而 GoM 的多模型流水线增加了复杂度。
-
vs. SpatialVLM:SpatialVLM 通过微调来增强空间理解,需要空间感知的训练数据和额外训练计算。GoM 的 training-free 特性是核心优势,但代价是推理时需要运行多个外部模型。两种方法可以互补——用 GoM 增强的图像也可以作为 SpatialVLM 等微调方法的输入。
-
vs. Herzig et al. (结构化表示+预训练 VLM):该工作通过潜在空间或文本机制整合场景图信息,而 GoM 的独特贡献在于直接在像素级别嵌入场景图,让模型的视觉编码器直接"看到"结构信息,而非通过额外模块注入。
启发与关联¶
- 与 VHD-Guided Adaptive Visual Re-injection 的关联:GoM 的发现(MLM 能从视觉中解读结构信息)可以与 VHD/TVC 方向结合——在长链推理中,当 VHD 检测到视觉遗忘时,不仅重注入原始视觉 token,还可以注入 GoM 增强后的结构化视觉信息,帮助模型在推理中保持空间关系理解。
- 场景图密度 vs 引导效果的 trade-off 值得进一步研究——是否可以自适应决定标注密度?与注意力机制结合,让模型自己"选择"需要关注的关系边?
- 跨模态结构一致性:视觉图优于文本图的发现,暗示 MLM 的视觉编码器和文本编码器对结构信息的处理能力不对称,这为理解 VLM 内部机制提供了线索。
评分¶
- 新颖性: ⭐⭐⭐ 从 SoM 到 GoM 的扩展方向明确且自然,但核心 idea 偏增量(加边到图上),没有根本性的范式创新
- 实验充分度: ⭐⭐⭐⭐ 消融实验设计全面(视觉/文本图对比、密度分析、组件贡献),但仅 3 个开源模型、未包含闭源模型、缺少推理延迟分析
- 写作质量: ⭐⭐⭐⭐ 技术细节描述清晰,pipeline 各阶段逻辑通顺,数学形式化合理
- 实用价值: ⭐⭐⭐ training-free 和即插即用是卖点,但 5 个预训练模型的串联流水线限制了实际部署;11 个百分点的提升在空间推理场景下有意义