VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models¶
会议: AAAI 2026
arXiv: 2511.11438
代码: https://github.com/Endlinc/VP-Bench
领域: 多模态VLM / Benchmark
关键词: Visual Prompting, MLLM评测, 视觉提示感知, 区域指向, Benchmark设计
一句话总结¶
VP-Bench 提出了首个系统评估 MLLM 视觉提示(Visual Prompt)理解能力的两阶段 Benchmark:Stage 1 用 30K+ 图像覆盖 8 种 VP 形状×355 种属性组合评测 VP 感知能力,Stage 2 评测 VP 对 6 个下游任务的实际效果。在 28 个 MLLM 上的评测揭示了 VP 形状选择对性能的关键影响。
研究背景与动机¶
- 领域现状:当人类希望 MLLM 关注图像中特定区域时,自然会使用"视觉提示"(Visual Prompts, VP)如边界框、箭头、圈画等。这在交互式 AI 应用中越来越常见。
- 现有痛点:现有 VP 相关 Benchmark(如 ViP-Bench 仅 303 张图、SoV 仅 119 张)规模太小、VP 类型覆盖有限,且未系统研究 VP 形状/属性对模型性能的影响,也未评估 VP 在下游任务中的实际效果。
- 核心矛盾:不同的 VP 形状(边界框 vs 涂鸦 vs 点标记)、属性(颜色/粗细/样式)对 MLLM 的可感知性差异很大,但没有系统研究来指导"应该用什么样的 VP"。
- 本文要解决什么? 系统评估 MLLM 对 VP 的感知能力和 VP 对下游任务的影响。
- 切入角度:将 VP 按形状分为 8 类(tag/bbox/arrow/mask/contour/oval/point/scribble),每类进一步分解属性(颜色/线宽/顶点形状等),构建最全面的 VP 评测体系。
- 核心 idea 一句话:用 34K+ 图像和 355 种 VP 属性组合系统评测 28 个 MLLM 的视觉提示理解能力。
方法详解¶
整体框架¶
两阶段评测:Stage 1(VP 感知)——在自然场景图像上评测模型对不同 VP 形状和属性的存在检测、计数、定位、指向理解能力;Stage 2(VP 下游效果)——用每个模型在 Stage 1 中最佳的 VP 配置,评测 VP 在 6 个真实应用任务中的实际增益。
关键设计¶
- Stage 1: VP 感知评测:
- 做什么:评测 MLLM 对 8 种 VP 形状、355 种属性组合的感知能力
- 核心思路:基于 MS-COCO 的标注生成 30K+ 图像,每张图叠加特定 VP。4 类问题——存在性(有没有 VP)、计数(有几个 VP)、粗定位(VP 在图中什么位置)、指向(VP 指向什么物体)。所有问题为多选题。包含去偏问题(图中无 VP 但问题提到 VP)以检测幻觉
-
设计动机:355 种属性组合是现有 benchmark 的 40 倍以上,可以精确分析哪种颜色/粗细/样式最有效
-
Stage 2: VP 下游任务评测:
- 做什么:评估 VP 在真实应用场景中是否比纯文本空间描述更有用
- 6 个下游任务:医学图像分析(MIA)、3D 物体识别、面部表情识别、街景识别、GUI 元素识别、场景图生成(SGG)
-
对比设计:R-BVP(随机选 Stage 1 总体最佳 VP)vs BVP(用当前模型自己最佳 VP),以及 VP vs 纯文本空间描述
-
VP 描述(VP Description):
- 做什么:在文本指令中加入 VP 形状的自然语言描述(如"红色边界框标出了目标区域")
- 核心发现:加入 VP 描述显著提升性能——InternVL3-78B 平均从 81.3%→88.0%,尤其 Mask 形状提升 29%
- 设计动机:让 VP 的语义在视觉和文本两个模态中同时明确,减少模型对 VP 含义的推理歧义
实验关键数据¶
Stage 1 — VP 感知(28 个 MLLM)¶
| 模型 | BBox | Oval | Tag | Mask | Point | Scribble | Avg |
|---|---|---|---|---|---|---|---|
| Human | 97.3 | 94.9 | 89.0 | 85.3 | 90.7 | 82.8 | 90.0 |
| InternVL3-78B | 94.3 | 95.8 | 93.9 | 80.0 | 81.6 | 80.9 | 88.0 |
| GPT-4o | 74.2 | 79.8 | 70.0 | 65.3 | 49.3 | 64.5 | 68.8 |
| Qwen2.5-VL-72B | 92.9 | 92.8 | 92.3 | 68.7 | 69.6 | 74.8 | 82.8 |
Stage 2 — VP 下游任务最佳模型¶
| 模型 | MIA | 3D | Street | GUI | SGG | Avg |
|---|---|---|---|---|---|---|
| InternVL3-78B | 53.4 | 87.0 | 67.5 | 97.8 | 95.0 | 79.1 |
| InternVL3-38B | 48.4 | 88.7 | 59.8 | 99.0 | 94.2 | 77.2 |
| Molmo-72B | 62.8 | 78.0 | 60.8 | 96.3 | 91.8 | 76.2 |
关键发现¶
- 规则形状 >> 不规则形状:BBox/Oval/Tag 平均 85%+,而 Mask/Point/Scribble 仅约 69%——MLLM 对不规则 VP 感知能力严重不足
- 颜色极其关键:对比色(与背景形成最大反差的颜色)是绝大多数模型的最佳选择
- VP 描述带来巨大提升:Mask 形状加描述后 InternVL3-78B 提升 29.2%,Qwen2.5-VL-72B 提升 27.3%
- GPT-4o 在 VP 感知上意外落后:68.8% 平均准确率远低于开源模型(InternVL3-78B 88.0%),前者空间定位尤其差(57.8%)
- VP 数据训练不一定有用:ViP-LLaVA 在 VP 数据上调练后 Stage 1 提升但 Stage 2 反而退化——基础能力更重要
- VP vs 纯文本描述:VP 平均比文本空间描述好 1.64%(MIA)和 1.15%(3D),但在面部表情等任务中文本更好——VP 效果因任务而异
亮点与洞察¶
- 规模最大的 VP 评测:34K+ 图像、355 属性组合、28 个模型,比 ViP-Bench 大 100 倍——这是目前最全面的 VP 感知评测
- 实用设计指南:对比色+中等粗细的边界框是"万能最优 VP"——这对实际应用中的 VP 设计有直接指导
- 去偏问题设计:约 12.5% 的题目是去偏样本(图中无 VP 但问题提及),有效检测模型 VP 幻觉
- VP 描述的重要性:简单地在指令中说明"这个红色框表示目标区域"就能大幅提升效果——几乎零成本的性能增益
局限性 / 可改进方向¶
- Stage 2 下游任务种类有限(6 个),且每个任务仅 200 张图
- VP 渲染基于 MS-COCO 的方形裁剪,可能不完全反映真实场景中的 VP 使用
- 未评估动态/交互式 VP(如鼠标拖拽、手势指引等)
- 未讨论多个 VP 同时出现时的模型表现
相关工作与启发¶
- vs ViP-Bench: ViP-Bench 303 张图/8 VP 类型/1 域,VP-Bench 34K 图/355 组合/4 域——规模提升 100x+
- vs SoV: SoV 仅 119 张图用于 Set-of-Mark 验证,VP-Bench 覆盖更多形状和属性
- vs VipAct(本批笔记): VipAct 中 VP 描述 Agent 的设计思路与本文"VP 描述"的发现一致——在指令中显式描述 VP 含义有助于 MLLM 理解
- 启发:VP 形状选择应该根据任务而非通用偏好——不同任务的最优 VP 可能不同
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个大规模系统 VP 评测,填补重要空白
- 实验充分度: ⭐⭐⭐⭐⭐ 28 模型、355 属性组合、两阶段评测、去偏设计、VP 描述消融
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据详实
- 价值: ⭐⭐⭐⭐⭐ 对 VP 设计实践和 MLLM 区域理解研究有重要参考价值