跳转至

VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models

会议: AAAI 2026
arXiv: 2511.11438
代码: https://github.com/Endlinc/VP-Bench
领域: 多模态VLM / Benchmark
关键词: Visual Prompting, MLLM评测, 视觉提示感知, 区域指向, Benchmark设计

一句话总结

VP-Bench 提出了首个系统评估 MLLM 视觉提示(Visual Prompt)理解能力的两阶段 Benchmark:Stage 1 用 30K+ 图像覆盖 8 种 VP 形状×355 种属性组合评测 VP 感知能力,Stage 2 评测 VP 对 6 个下游任务的实际效果。在 28 个 MLLM 上的评测揭示了 VP 形状选择对性能的关键影响。

研究背景与动机

  1. 领域现状:当人类希望 MLLM 关注图像中特定区域时,自然会使用"视觉提示"(Visual Prompts, VP)如边界框、箭头、圈画等。这在交互式 AI 应用中越来越常见。
  2. 现有痛点:现有 VP 相关 Benchmark(如 ViP-Bench 仅 303 张图、SoV 仅 119 张)规模太小、VP 类型覆盖有限,且未系统研究 VP 形状/属性对模型性能的影响,也未评估 VP 在下游任务中的实际效果。
  3. 核心矛盾:不同的 VP 形状(边界框 vs 涂鸦 vs 点标记)、属性(颜色/粗细/样式)对 MLLM 的可感知性差异很大,但没有系统研究来指导"应该用什么样的 VP"。
  4. 本文要解决什么? 系统评估 MLLM 对 VP 的感知能力和 VP 对下游任务的影响。
  5. 切入角度:将 VP 按形状分为 8 类(tag/bbox/arrow/mask/contour/oval/point/scribble),每类进一步分解属性(颜色/线宽/顶点形状等),构建最全面的 VP 评测体系。
  6. 核心 idea 一句话:用 34K+ 图像和 355 种 VP 属性组合系统评测 28 个 MLLM 的视觉提示理解能力。

方法详解

整体框架

两阶段评测:Stage 1(VP 感知)——在自然场景图像上评测模型对不同 VP 形状和属性的存在检测、计数、定位、指向理解能力;Stage 2(VP 下游效果)——用每个模型在 Stage 1 中最佳的 VP 配置,评测 VP 在 6 个真实应用任务中的实际增益。

关键设计

  1. Stage 1: VP 感知评测:
  2. 做什么:评测 MLLM 对 8 种 VP 形状、355 种属性组合的感知能力
  3. 核心思路:基于 MS-COCO 的标注生成 30K+ 图像,每张图叠加特定 VP。4 类问题——存在性(有没有 VP)、计数(有几个 VP)、粗定位(VP 在图中什么位置)、指向(VP 指向什么物体)。所有问题为多选题。包含去偏问题(图中无 VP 但问题提到 VP)以检测幻觉
  4. 设计动机:355 种属性组合是现有 benchmark 的 40 倍以上,可以精确分析哪种颜色/粗细/样式最有效

  5. Stage 2: VP 下游任务评测:

  6. 做什么:评估 VP 在真实应用场景中是否比纯文本空间描述更有用
  7. 6 个下游任务:医学图像分析(MIA)、3D 物体识别、面部表情识别、街景识别、GUI 元素识别、场景图生成(SGG)
  8. 对比设计:R-BVP(随机选 Stage 1 总体最佳 VP)vs BVP(用当前模型自己最佳 VP),以及 VP vs 纯文本空间描述

  9. VP 描述(VP Description):

  10. 做什么:在文本指令中加入 VP 形状的自然语言描述(如"红色边界框标出了目标区域")
  11. 核心发现:加入 VP 描述显著提升性能——InternVL3-78B 平均从 81.3%→88.0%,尤其 Mask 形状提升 29%
  12. 设计动机:让 VP 的语义在视觉和文本两个模态中同时明确,减少模型对 VP 含义的推理歧义

实验关键数据

Stage 1 — VP 感知(28 个 MLLM)

模型 BBox Oval Tag Mask Point Scribble Avg
Human 97.3 94.9 89.0 85.3 90.7 82.8 90.0
InternVL3-78B 94.3 95.8 93.9 80.0 81.6 80.9 88.0
GPT-4o 74.2 79.8 70.0 65.3 49.3 64.5 68.8
Qwen2.5-VL-72B 92.9 92.8 92.3 68.7 69.6 74.8 82.8

Stage 2 — VP 下游任务最佳模型

模型 MIA 3D Street GUI SGG Avg
InternVL3-78B 53.4 87.0 67.5 97.8 95.0 79.1
InternVL3-38B 48.4 88.7 59.8 99.0 94.2 77.2
Molmo-72B 62.8 78.0 60.8 96.3 91.8 76.2

关键发现

  • 规则形状 >> 不规则形状:BBox/Oval/Tag 平均 85%+,而 Mask/Point/Scribble 仅约 69%——MLLM 对不规则 VP 感知能力严重不足
  • 颜色极其关键:对比色(与背景形成最大反差的颜色)是绝大多数模型的最佳选择
  • VP 描述带来巨大提升:Mask 形状加描述后 InternVL3-78B 提升 29.2%,Qwen2.5-VL-72B 提升 27.3%
  • GPT-4o 在 VP 感知上意外落后:68.8% 平均准确率远低于开源模型(InternVL3-78B 88.0%),前者空间定位尤其差(57.8%)
  • VP 数据训练不一定有用:ViP-LLaVA 在 VP 数据上调练后 Stage 1 提升但 Stage 2 反而退化——基础能力更重要
  • VP vs 纯文本描述:VP 平均比文本空间描述好 1.64%(MIA)和 1.15%(3D),但在面部表情等任务中文本更好——VP 效果因任务而异

亮点与洞察

  • 规模最大的 VP 评测:34K+ 图像、355 属性组合、28 个模型,比 ViP-Bench 大 100 倍——这是目前最全面的 VP 感知评测
  • 实用设计指南:对比色+中等粗细的边界框是"万能最优 VP"——这对实际应用中的 VP 设计有直接指导
  • 去偏问题设计:约 12.5% 的题目是去偏样本(图中无 VP 但问题提及),有效检测模型 VP 幻觉
  • VP 描述的重要性:简单地在指令中说明"这个红色框表示目标区域"就能大幅提升效果——几乎零成本的性能增益

局限性 / 可改进方向

  • Stage 2 下游任务种类有限(6 个),且每个任务仅 200 张图
  • VP 渲染基于 MS-COCO 的方形裁剪,可能不完全反映真实场景中的 VP 使用
  • 未评估动态/交互式 VP(如鼠标拖拽、手势指引等)
  • 未讨论多个 VP 同时出现时的模型表现

相关工作与启发

  • vs ViP-Bench: ViP-Bench 303 张图/8 VP 类型/1 域,VP-Bench 34K 图/355 组合/4 域——规模提升 100x+
  • vs SoV: SoV 仅 119 张图用于 Set-of-Mark 验证,VP-Bench 覆盖更多形状和属性
  • vs VipAct(本批笔记): VipAct 中 VP 描述 Agent 的设计思路与本文"VP 描述"的发现一致——在指令中显式描述 VP 含义有助于 MLLM 理解
  • 启发:VP 形状选择应该根据任务而非通用偏好——不同任务的最优 VP 可能不同

评分

  • 新颖性: ⭐⭐⭐⭐ 首个大规模系统 VP 评测,填补重要空白
  • 实验充分度: ⭐⭐⭐⭐⭐ 28 模型、355 属性组合、两阶段评测、去偏设计、VP 描述消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据详实
  • 价值: ⭐⭐⭐⭐⭐ 对 VP 设计实践和 MLLM 区域理解研究有重要参考价值