VAQUUM: Are Vague Quantifiers Grounded in Visual Data?¶
会议: ACL 2025
arXiv: 2502.11874
代码: https://github.com/hughmee/vaquum
领域: 多模态VLM
关键词: vague quantifiers, visual grounding, VLM evaluation, human judgment, multimodal
一句话总结¶
本文发布了VAQUUM数据集(20,300条人类评分,1,089张图片),系统评估视觉语言模型在模糊量词(few/many等)使用上与人类的一致性,发现VLM像人类一样受物体数量影响,但不同评估范式下模型表现差异大,表明判断和生成模糊量词依赖不同认知过程。
研究背景与动机¶
- 领域现状:模糊量词(如 a few、many)在日常对话中广泛使用,其含义受上下文因素影响(如物体数量、大小、个人信念等)。在NLP和多模态研究中,大部分量词研究聚焦于精确量词(all、none),对模糊量词的建模关注较少。
- 现有痛点:现有研究多将模糊量词定义为固定比例(如few = <17%),消除了其"模糊性"本质;缺乏大规模的人类判断数据来衡量VLM在视觉场景中对模糊量词的理解;评估方法单一,无法全面反映模型行为。
- 核心矛盾:模糊量词的使用依赖复杂的视觉和语境因素(数量、面积、真实世界大小),我们不知道VLM是否能像人类一样根据这些因素灵活调整量词使用,更不清楚不同评估方法是否能得到一致的结论。
- 本文目标 (1) 视觉场景中哪些因素影响人类对模糊量词的判断?(2) VLM是否在这些因素上与人类行为一致?(3) 不同评估范式(生成概率、数值评分、多选题)是否给出一致结果?
- 切入角度:构建一个包含丰富视觉特征标注(物体数量、分割面积、真实世界大小规范)的数据集,使用三种不同评估方式(概率提取、提示评分、多选题)来全面评估VLM与人类的对齐程度。
- 核心 idea:通过三种评估范式揭示VLM在模糊量词使用上与人类部分对齐但高度依赖评估方法的事实。
方法详解¶
整体框架¶
输入是自然图片+量化陈述("There are [QUANT] [OBJECT] in the image",其中QUANT ∈ {few, a few, some, many, a lot of}),输出是该陈述的"恰当性"评分。从人类和VLM两侧收集评分,然后比较对齐程度。VLM侧使用三种评估方式:生成概率提取、LLM数值评分和多选题。
关键设计¶
-
VAQUUM数据集构建:
- 功能:提供多维视觉特征标注的人类量词判断基准
- 核心思路:从FSC-133(物体计数数据集,7-3731个物体)和TallyQA(2-15个物体)合并图片,将99种不同计数分为33个bin,每bin采样33张图片得到1,089张。标注三种视觉特征:(a) 物体计数(分bin均匀采样);(b) 分割面积(用CLIPSeg估计物体占图片面积比例);(c) 真实世界大小规范(从THINGSplus数据库获取人类评定的物体典型大小)。招募203名英语母语参与者,每人评100个陈述,用滑块评分恰当性
- 设计动机:现有数据集要么用人工图片(不真实),要么用固定比例定义量词(消除了模糊性),本数据集使用自然图片+连续评分+多维特征
-
线性混合效应模型分析人类判断:
- 功能:量化各视觉因素对人类量词判断的影响
- 核心思路:以量词、计数、分割面积、大小规范为固定效应,参与者和物体类别为随机效应,拟合LMM预测人类评分。模型解释了50.3%的总方差(\(R^2_c = 0.503\))。交互效应显示few/a few与计数负相关(\(\beta = -0.37/-0.38\)),many/a lot of与计数正相关(\(\beta = 0.38/0.42\)),面积和大小规范效应方向一致但更弱
- 设计动机:精确建立人类行为的统计模型,作为VLM评估的参考基线
-
三种VLM评估范式:
- 功能:从不同角度全面评估VLM的量词使用能力
- 核心思路:(a) 生成概率(Experiment 1):提示VLM"How would you describe the amount of [OBJECT]?"并提取对各量化陈述的log概率,按token长度归一化;(b) 数值评分(Experiment 2):提示VLM直接给出陈述恰当性的数值分数;(c) 多选题(Experiment 3):要求VLM从六个量化陈述中选最恰当的一个。对5个VLM(BLIP-2、InstructBLIP、LLaVA-NeXT、LLaVA-OneVision、Molmo)比较各评估方式下与人类判断的相关性
- 设计动机:不同评估方式测量的可能是不同能力——概率反映内在语言建模偏好,数值评分需要元认知能力,多选题需要比较和判断能力
实验关键数据¶
主实验 — 生成概率与人类判断的Spearman相关¶
| 模型 | few | a few | some | many | a lot of |
|---|---|---|---|---|---|
| BLIP-2 | -0.18 | -0.19 | -0.06 | 0.14 | 0.13 |
| InstructBLIP | 0.06 | 0.04 | -0.03 | -0.01 | -0.04 |
| LLaVA-NeXT | 0.34 | 0.39 | 0.21 | 0.43 | 0.52 |
| LLaVA-OneVision | 0.30 | 0.40 | 0.22 | 0.52 | - |
| Molmo | ~0 | ~0 | ~0 | ~0 | ~0 |
人类判断:计数的影响 (LMM交互效应 \(\beta\))¶
| 量词 | 计数交互\(\beta\) | 面积交互\(\beta\) | 大小规范交互\(\beta\) |
|---|---|---|---|
| few | -0.37 | -0.07 | -0.13 |
| a few | -0.38 | -0.10 | -0.11 |
| some | -0.20 | -0.05 | -0.07 |
| many | +0.38 | +0.08 | +0.14 |
| a lot of | +0.42 | +0.06 | +0.17 |
关键发现¶
- LLaVA系列模型在生成概率上与人类判断最为一致(few/a few随数量增加概率下降,many/a lot of概率上升),而InstructBLIP和Molmo完全无法区分不同量词
- 三种评估范式给出的结论不一致:概率提取和多选题方法显示较好的人类对齐,但数值评分提示方法的对齐程度差得多。这暗示VLM的"产出"和"判断"能力可能由不同机制驱动
- 物体计数是影响人类量词判断的最强因素(\(|\beta|\) 0.20-0.42),分割面积(0.05-0.10)和真实世界大小(0.07-0.17)影响较弱
- 人类判断中few和a few行为几乎一致,但many和a lot of也高度相似——量词的"模糊"边界似乎比语言学理论预测的更为一致
- LMM模型解释了50.3%的方差,参与者间差异(0.042)远大于物体类别间差异(0.002),说明量词使用差异主要是个体差异而非物体特异性
亮点与洞察¶
- 三种评估范式(概率/评分/多选)的不一致是本文最有价值的发现——它警示VLM评估中方法选择会系统性地影响结论,单一范式可能误导对模型能力的判断
- 使用滑动条连续评分而非离散选择来收集人类判断是很好的设计,保留了模糊量词的连续性本质
- 心理语言学理论(近似数系统、subitizing阈值)与计算模型的结合为VLM评估提供了更深层的认知科学基础
局限与展望¶
- 仅测试了5个VLM,且均为开源模型,未包含GPT-4V等闭源模型
- 图片中物体种类限制在FSC-133的子集,未覆盖复杂场景(如多种物体共存)
- 仅测试英语量词,不同语言的模糊量词体系可能差异很大
- 未探索VLM在什么条件下会出现"反人类"判断(如把10个物体称为"few"),这类失败模式分析有助于理解模型缺陷
- 人类评分收集仅通过Prolific平台(英国/爱尔兰),文化和语言背景可能影响量词使用
- 大型闭源VLM(GPT-4V、Gemini)未纳入评估,可能遗漏了更强模型的行为模式
相关工作与启发¶
- vs Testoni et al. (2024): 他们用合成图片测试3个VLM的量词选择,本文使用自然图片、5个VLM和三种评估范式,更加全面
- vs Enyan et al. (2024): 他们比较LLM在精确vs模糊量词上的表现(纯文本),本文扩展到视觉场景中的grounded理解
- vs Sorodoc et al. (2016/2018): 他们用固定比例定义量词进行训练,本文保留量词的模糊性并用人类连续评分建立ground truth
- 该数据集可进一步用于训练VLM的量词使用能力,或作为探测VLM计数能力的诊断工具
评分¶
- 总体评价: 跨学科融合研究的典范,对VLM评估方法论有重要警示
- 新颖性: ⭐⭐⭐⭐ 首个全面评估VLM模糊量词grounding能力的工作
- 实验充分度: ⭐⭐⭐⭐ 三种评估范式+统计建模很充分,但模型覆盖略窄
- 写作质量: ⭐⭐⭐⭐⭐ 跨学科融合(语言学+心理学+NLP)流畅自然
- 价值: ⭐⭐⭐⭐ 揭示了VLM评估范式依赖性的重要问题
相关论文¶
- [ACL 2025] LAQuer: Localized Attribution Queries in Content-grounded Generation
- [ACL 2025] Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction
- [ACL 2025] ChartLens: Fine-Grained Visual Attribution in Charts
- [ACL 2025] TARGA: Targeted Synthetic Data Generation for Practical Reasoning over Structured Data
- [ACL 2025] AIDE: Attribute-Guided Multi-Hop Data Expansion for Data Scarcity in Task-Specific Fine-tuning