VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models¶

会议: AAAI 2026
arXiv: 2511.11438
代码: https://github.com/Endlinc/VP-Bench
领域: 多模态VLM / Benchmark
关键词: Visual Prompting, MLLM评测, 视觉提示感知, 区域指向, Benchmark设计

一句话总结¶

VP-Bench 提出了首个系统评估 MLLM 视觉提示（Visual Prompt）理解能力的两阶段 Benchmark：Stage 1 用 30K+ 图像覆盖 8 种 VP 形状×355 种属性组合评测 VP 感知能力，Stage 2 评测 VP 对 6 个下游任务的实际效果。在 28 个 MLLM 上的评测揭示了 VP 形状选择对性能的关键影响。

研究背景与动机¶

领域现状：当人类希望 MLLM 关注图像中特定区域时，自然会使用"视觉提示"（Visual Prompts, VP）如边界框、箭头、圈画等。这在交互式 AI 应用中越来越常见。
现有痛点：现有 VP 相关 Benchmark（如 ViP-Bench 仅 303 张图、SoV 仅 119 张）规模太小、VP 类型覆盖有限，且未系统研究 VP 形状/属性对模型性能的影响，也未评估 VP 在下游任务中的实际效果。
核心矛盾：不同的 VP 形状（边界框 vs 涂鸦 vs 点标记）、属性（颜色/粗细/样式）对 MLLM 的可感知性差异很大，但没有系统研究来指导"应该用什么样的 VP"。
本文要解决什么？ 系统评估 MLLM 对 VP 的感知能力和 VP 对下游任务的影响。
切入角度：将 VP 按形状分为 8 类（tag/bbox/arrow/mask/contour/oval/point/scribble），每类进一步分解属性（颜色/线宽/顶点形状等），构建最全面的 VP 评测体系。
核心 idea 一句话：用 34K+ 图像和 355 种 VP 属性组合系统评测 28 个 MLLM 的视觉提示理解能力。

方法详解¶

整体框架¶

两阶段评测：Stage 1（VP 感知）——在自然场景图像上评测模型对不同 VP 形状和属性的存在检测、计数、定位、指向理解能力；Stage 2（VP 下游效果）——用每个模型在 Stage 1 中最佳的 VP 配置，评测 VP 在 6 个真实应用任务中的实际增益。

关键设计¶

Stage 1: VP 感知评测:
做什么：评测 MLLM 对 8 种 VP 形状、355 种属性组合的感知能力
核心思路：基于 MS-COCO 的标注生成 30K+ 图像，每张图叠加特定 VP。4 类问题——存在性（有没有 VP）、计数（有几个 VP）、粗定位（VP 在图中什么位置）、指向（VP 指向什么物体）。所有问题为多选题。包含去偏问题（图中无 VP 但问题提到 VP）以检测幻觉
设计动机：355 种属性组合是现有 benchmark 的 40 倍以上，可以精确分析哪种颜色/粗细/样式最有效
Stage 2: VP 下游任务评测:
做什么：评估 VP 在真实应用场景中是否比纯文本空间描述更有用
6 个下游任务：医学图像分析（MIA）、3D 物体识别、面部表情识别、街景识别、GUI 元素识别、场景图生成（SGG）
对比设计：R-BVP（随机选 Stage 1 总体最佳 VP）vs BVP（用当前模型自己最佳 VP），以及 VP vs 纯文本空间描述
VP 描述（VP Description）:
做什么：在文本指令中加入 VP 形状的自然语言描述（如"红色边界框标出了目标区域"）
核心发现：加入 VP 描述显著提升性能——InternVL3-78B 平均从 81.3%→88.0%，尤其 Mask 形状提升 29%
设计动机：让 VP 的语义在视觉和文本两个模态中同时明确，减少模型对 VP 含义的推理歧义

实验关键数据¶

Stage 1 — VP 感知（28 个 MLLM）¶

模型	BBox	Oval	Tag	Mask	Point	Scribble	Avg
Human	97.3	94.9	89.0	85.3	90.7	82.8	90.0
InternVL3-78B	94.3	95.8	93.9	80.0	81.6	80.9	88.0
GPT-4o	74.2	79.8	70.0	65.3	49.3	64.5	68.8
Qwen2.5-VL-72B	92.9	92.8	92.3	68.7	69.6	74.8	82.8

Stage 2 — VP 下游任务最佳模型¶

模型	MIA	3D	Street	GUI	SGG	Avg
InternVL3-78B	53.4	87.0	67.5	97.8	95.0	79.1
InternVL3-38B	48.4	88.7	59.8	99.0	94.2	77.2
Molmo-72B	62.8	78.0	60.8	96.3	91.8	76.2

关键发现¶

规则形状 >> 不规则形状：BBox/Oval/Tag 平均 85%+，而 Mask/Point/Scribble 仅约 69%——MLLM 对不规则 VP 感知能力严重不足
颜色极其关键：对比色（与背景形成最大反差的颜色）是绝大多数模型的最佳选择
VP 描述带来巨大提升：Mask 形状加描述后 InternVL3-78B 提升 29.2%，Qwen2.5-VL-72B 提升 27.3%
GPT-4o 在 VP 感知上意外落后：68.8% 平均准确率远低于开源模型（InternVL3-78B 88.0%），前者空间定位尤其差（57.8%）
VP 数据训练不一定有用：ViP-LLaVA 在 VP 数据上调练后 Stage 1 提升但 Stage 2 反而退化——基础能力更重要
VP vs 纯文本描述：VP 平均比文本空间描述好 1.64%（MIA）和 1.15%（3D），但在面部表情等任务中文本更好——VP 效果因任务而异

亮点与洞察¶

规模最大的 VP 评测：34K+ 图像、355 属性组合、28 个模型，比 ViP-Bench 大 100 倍——这是目前最全面的 VP 感知评测
实用设计指南：对比色+中等粗细的边界框是"万能最优 VP"——这对实际应用中的 VP 设计有直接指导
去偏问题设计：约 12.5% 的题目是去偏样本（图中无 VP 但问题提及），有效检测模型 VP 幻觉
VP 描述的重要性：简单地在指令中说明"这个红色框表示目标区域"就能大幅提升效果——几乎零成本的性能增益

局限性 / 可改进方向¶

Stage 2 下游任务种类有限（6 个），且每个任务仅 200 张图
VP 渲染基于 MS-COCO 的方形裁剪，可能不完全反映真实场景中的 VP 使用
未评估动态/交互式 VP（如鼠标拖拽、手势指引等）
未讨论多个 VP 同时出现时的模型表现

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模系统 VP 评测，填补重要空白
实验充分度: ⭐⭐⭐⭐⭐ 28 模型、355 属性组合、两阶段评测、去偏设计、VP 描述消融
写作质量: ⭐⭐⭐⭐ 结构清晰，数据详实
价值: ⭐⭐⭐⭐⭐ 对 VP 设计实践和 MLLM 区域理解研究有重要参考价值