Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting¶

会议: AAAI 2026 (Main Track)
arXiv: 2603.06663
代码: 无
领域: 多模态VLM
关键词: 视觉提示(Visual Prompting), 空间推理(Spatial Reasoning), 场景图(Scene Graph), 多模态语言模型, 零样本推理

一句话总结¶

提出 Graph-of-Mark (GoM)，一种无需训练的像素级视觉提示方法，通过在输入图像上直接叠加深度感知的场景图（包含节点和有向边），显式编码物体间的空间关系，使多模态语言模型在 VQA 和定位任务中的零样本空间推理准确率最高提升 11 个百分点。

背景与动机¶

当前多模态语言模型（MLM）在处理视觉信息时，往往将图像视为一个"物体的集合"（bags of objects）——它们能识别出图中的"杯子"和"桌子"，但在准确判断两者空间关系（左边？后面？上方？）时经常失败。这种缺陷源于：(1) 视觉编码器将图像转化为 token 时丢失了精细的关系信息；(2) 标准训练目标偏重全局图像理解和标签匹配，缺乏显式空间监督。

此前的解决思路主要有两类：一是对模型进行空间感知数据的微调（如 SpatialVLM），计算成本高；二是使用 Set-of-Mark (SoM) 等视觉提示技术，在图像上标注物体区域和编号。SoM 作为当前事实标准（de facto standard），已被证明能增强视觉 grounding 能力，但其核心局限在于：将标注的物体视为孤立实体，完全忽略了物体之间的空间关系。杯子和桌子各自有了编号，但它们之间是"在上方"还是"在旁边"，模型仍然得自己猜。

核心问题¶

如何在不修改模型参数的前提下（training-free），通过修改输入图像本身，向 MLM 显式传达物体间的空间关系，从而激发模型潜在的空间推理能力？

这个问题之所以重要，是因为空间推理在机器人操控、导航、医学图像分析等下游任务中不可或缺，而当前主流 MLM 在这方面表现不佳。如果能通过一个即插即用（plug-and-play）的纯推理阶段方案解决，就可以零成本地增强任意已有模型。

方法详解¶

整体框架¶

GoM 将 SoM 的"集合标注"范式升级为"图标注"范式。核心思想是：在输入图像上叠加一个场景图，其中节点（nodes）代表物体，有向边（directed edges）代表物体间的空间关系。整个流程是一个四阶段流水线：

输入：原始图像 + 用户文本查询 → Stage 1: 检测与分割 → Stage 2: 关系估计 → Stage 3: 查询感知过滤 → Stage 4: 视觉渲染 → 输出：叠加场景图的增强图像，送入任意 MLM 进行推理。

关键设计¶

多检测器集成与精细分割：为确保场景覆盖率，GoM 使用三个互补的检测器：OWL-V2（开放词汇检测）、YOLOv8（高置信常见物体）、Mask R-CNN（鲁棒区域提议）。通过 Weighted Boxes Fusion (WBF) 融合重叠检测、去除冗余标注，再用 SAM-HQ（Segment Anything in High Quality）生成精确掩码。这种集成策略比单一检测器更全面，但也带来了显著的计算开销。
三维度空间关系估计：这是 GoM 相比 SoM 最核心的新增能力。对每对物体，从三个维度评估关系：
2D 方向关系：基于边界框中心坐标计算水平/垂直位移，用阈值 \(\tau_{dir}\) 判断"上方/下方/左/右"。公式为：\(R_{dir}(i,j) = \text{above} \iff \Delta y > |\Delta x| + \tau_{dir}\)
3D 深度关系：使用单目深度估计器 MiDaS 为每个物体分配相对深度值，通过阈值 \(\tau_z\) 判断"前方 (in_front_of) / 后方 (behind)"
近距离关系：计算物体间欧氏距离，判断"靠近/接触/非常近"
查询感知过滤 (Query-Aware Filtering)：如果叠加所有物体间的所有关系，图像会变得杂乱不堪。GoM 使用文本查询进行语义相似度匹配，仅保留查询中提及的物体及其直接空间邻居，确保视觉提示与当前任务相关。
防碰撞视觉渲染：物体用彩色掩码和唯一 ID 高亮，关系用有向箭头绘制（从头实体指向尾实体）。一个多步冲突解决算法确保标注不遮挡物体本身——当标签发生重叠时，沿坐标轴迭代移动；若 ID 标记被移动过远，用虚线连回原始位置；多条箭头从同一物体出发时，赋予不同曲率半径以保证可区分性。

损失函数 / 训练策略¶

GoM 是一种无需训练（training-free）的推理阶段方法，不涉及损失函数或模型参数更新。所有组件（OWL-V2、YOLOv8、Mask R-CNN、SAM-HQ、MiDaS）均使用预训练权重，仅在推理时串联使用。超参数包括方向阈值 \(\tau_{dir}\) 和深度阈值 \(\tau_z\)。

实验关键数据¶

论文在 3 个开源 MLM（LlamaV-o1、Qwen-2.5-VL、Gemma-3）上评估，使用 4 个标准数据集（包括 GQA 用于空间推理、VQAv2 用于通用 VQA、RefCOCOg 用于指代表达理解等）。

评估维度	关键发现	量化结果
整体提升	GoM vs 原始图像/SoM 基线	最高提升 11 个百分点
最优模型	LlamaV-o1（已优化推理能力）	绝对性能最高，GoM 进一步催化其潜在推理能力
场景图复杂度甜蜜点	3-10 个物体、4-16 个关系	超过 20 个物体后噪声开始干扰，收益递减
视觉图 vs 文本图	在图像上绘制 vs 以文本三元组形式提供	仅视觉图通常优于仅文本图
辅助文本描述	同时提供视觉图和文本图描述	进一步提升，但并非总是增量

消融实验要点¶

视觉图 vs 文本图的比较是本文最有价值的发现之一：MLM 更擅长从嵌入像素空间的结构信息中提取空间关系，而非从序列化文本描述中。这暗示视觉编码器保留了一定的图结构理解能力。
场景图密度的影响：当物体数超过 ~20 个时，叠加标注本身成为"噪声"，模型开始被干扰。这揭示了视觉提示方法的一个基本矛盾——信息增益 vs 视觉干扰的平衡。
深度关系 (MiDaS) 的贡献：加入 3D 深度信息对涉及"前/后"判断的任务贡献显著，但对纯 2D 方向问题帮助有限。
查询感知过滤的必要性：无过滤版本性能明显下降，验证了选择性标注而非全场景标注的重要性。

亮点¶

从"集合"到"图"的范式升级：将 SoM 的物体标注范式从孤立节点扩展到包含关系边的图结构，概念简洁且直觉合理。这是一个"显然应该做但没人做"的工作。
纯视觉的结构信息传递：发现 MLM 可以直接从像素中解读图结构（箭头、标签），无需文本辅助，这个实验发现很有启发性。
即插即用的工程价值：training-free、不修改模型、可应用于任何 MLM，部署门槛低。
防碰撞渲染算法：解决了视觉标注遮挡原始内容的实际工程问题，包括标签移位、虚线回连、箭头曲率自适应等，细节考虑周到。

局限性 / 可改进方向¶

推理延迟高：使用 5 个预训练模型（3 检测器 + SAM-HQ + MiDaS）的串联流水线，推理开销远超直接将图像送入 MLM。论文未报告速度对比，这在实际部署中可能是致命问题。
依赖检测器质量：链条式依赖（检测 → 分割 → 深度估计 → 关系判断），任何一环的错误会级联放大。如果检测器漏掉关键物体或 MiDaS 深度估计不准，场景图本身就是错的。
仅限静态图像：未考虑视频场景中的时序空间关系，也未处理遮挡导致的不可见物体。
实验规模有限：仅测试 3 个开源 MLM，未包含 GPT-4V/4o、Claude、Gemini 等闭源模型。考虑到 SoM 最初是在 GPT-4V 上展示的，这个缺失比较遗憾。
密集场景退化：当物体过多（>20）时场景图反而引入噪声，这限制了方法在复杂真实场景（如街景、工厂车间）中的适用性。
关系类型固定：仅建模方向、深度和近距离三类关系，未覆盖功能性关系（如"支撑""包含"）或语义关系（如"属于""使用中"），关系表达力较弱。

与相关工作的对比¶

vs. Set-of-Mark (SoM)：GoM 是 SoM 的直接扩展——SoM 仅标注物体（节点），GoM 增加了物体间的空间关系（边）。GoM 在空间推理任务上明确优于 SoM。但 SoM 的优势在于简洁、低延迟、适用于更广泛的任务（不限于空间推理），而 GoM 的多模型流水线增加了复杂度。
vs. SpatialVLM：SpatialVLM 通过微调来增强空间理解，需要空间感知的训练数据和额外训练计算。GoM 的 training-free 特性是核心优势，但代价是推理时需要运行多个外部模型。两种方法可以互补——用 GoM 增强的图像也可以作为 SpatialVLM 等微调方法的输入。
vs. Herzig et al. (结构化表示+预训练 VLM)：该工作通过潜在空间或文本机制整合场景图信息，而 GoM 的独特贡献在于直接在像素级别嵌入场景图，让模型的视觉编码器直接"看到"结构信息，而非通过额外模块注入。

启发与关联¶

与 VHD-Guided Adaptive Visual Re-injection 的关联：GoM 的发现（MLM 能从视觉中解读结构信息）可以与 VHD/TVC 方向结合——在长链推理中，当 VHD 检测到视觉遗忘时，不仅重注入原始视觉 token，还可以注入 GoM 增强后的结构化视觉信息，帮助模型在推理中保持空间关系理解。
场景图密度 vs 引导效果的 trade-off 值得进一步研究——是否可以自适应决定标注密度？与注意力机制结合，让模型自己"选择"需要关注的关系边？
跨模态结构一致性：视觉图优于文本图的发现，暗示 MLM 的视觉编码器和文本编码器对结构信息的处理能力不对称，这为理解 VLM 内部机制提供了线索。

评分¶

新颖性: ⭐⭐⭐ 从 SoM 到 GoM 的扩展方向明确且自然，但核心 idea 偏增量（加边到图上），没有根本性的范式创新
实验充分度: ⭐⭐⭐⭐ 消融实验设计全面（视觉/文本图对比、密度分析、组件贡献），但仅 3 个开源模型、未包含闭源模型、缺少推理延迟分析
写作质量: ⭐⭐⭐⭐ 技术细节描述清晰，pipeline 各阶段逻辑通顺，数学形式化合理
实用价值: ⭐⭐⭐ training-free 和即插即用是卖点，但 5 个预训练模型的串联流水线限制了实际部署；11 个百分点的提升在空间推理场景下有意义