VisNumBench: Evaluating Number Sense of Multimodal Large Language Models¶

会议: ICCV 2025
arXiv: 2503.14939
代码: https://wwwtttjjj.github.io/VisNumBench/
领域: 多模态VLM
关键词: 数字感知, 视觉数值估计, MLLM评测基准, 数量感知, 多模态推理

一句话总结¶

本文提出 VisNumBench，一个包含约 1900 道多选题的基准，覆盖 7 种视觉数值属性和 4 类视觉数值估计任务，系统评估了 17 个 MLLM 的直觉数字感知能力，发现即使最先进的模型也远低于人类水平。

领域现状：多模态大语言模型（MLLM）在复杂多模态任务上取得了显著进展，现有评测基准（如 MathVista、Math-Vision）主要聚焦于符号数学推理和结构化数值计算。

现有痛点：现有基准侧重于抽象的数学问题求解，忽略了人类认知中的核心能力——直觉数字感知（number sense）。人类可以一眼估计角度、长度、数量等，MLLM 是否具备类似能力完全未知。

核心矛盾：MLLM 可以处理复杂数学问题（依靠符号推理），却可能在需要视觉直觉的简单数值估计任务上表现糟糕，这揭示了其"理解"数字的深层不足。

本文目标：(a) 构建一个专门评估视觉数字感知能力的基准；(b) 系统测量当前 MLLM 的数字感知水平与人类的差距。

切入角度：从人类近似数系统（Approximate Number System）的认知科学概念出发，定义了 7 个视觉数值维度和 4 种估计任务类型。

核心 idea：MLLM 的数字感知能力是一种独立于数学推理的基础认知能力，需要专门的评测和优化。

VisNumBench 由两部分组成：VisNumBench-Synthetic（合成数据，1011 题）和 VisNumBench-Real（真实世界图像，902 题）。输入为图像 + 多选题，输出为模型选择的答案。评测采用自动化流程，直接对比模型输出与标准答案。

7 种视觉数值属性：
- 角度（Angle）、长度（Length）、比例（Scale）、数量（Quantity）、深度（Depth）、面积（Area）、体积（Volume）
- 合成数据涵盖前 6 种，真实世界数据涵盖除面积外的 6 种（含体积）
- 设计动机：覆盖人类数字感知的主要维度，避免单一属性的片面评估
4 种视觉数值估计任务：
- 值比较（Value Comparison）：两个视觉量哪个更大/更长？
- 值估计（Value Estimation）：给定图形估计具体数值（如角度约多少度？）
- 范围估计（Range Estimation）：数值落在哪个区间？
- 乘法估计（Multiplicative Estimation）：A 大约是 B 的几倍？
- 设计动机：从简单比较到复杂推理的层次化评估，对齐人类数字感知的不同难度
数据构建流程：
- 合成数据：用程序精确控制几何图形参数（角度、线段、形状排列等），确保答案无歧义。干扰选项经过精心设计，避免过于简单或过于困难
- 真实数据：从实际场景中采集图像（建筑物、家具、水果等），由人工标注数量、深度关系等，确保在自然场景下测试模型的数字直觉
- 设计动机：合成数据提供受控基准线，真实数据检验泛化能力

模型	Angle	Length	Scale	Quantity	Depth	Area	平均
Random	24.4	25.4	25.0	25.0	25.0	23.7	24.8
Qwen2.5-VL-72B	37.1	59.7	65.0	57.7	61.5	70.4	58.5
InternVL2.5-78B	35.3	59.7	68.6	42.9	61.5	72.5	56.2
Gemini 2.0 Flash	31.2	57.5	81.4	55.1	51.1	70.9	57.6
GPT-4o	35.3	43.1	54.3	37.2	54.1	43.4	43.7
LLaVA-v1.5-7B	31.2	30.4	34.3	33.2	26.7	21.2	29.4
人类	90.0	96.0	100.0	96.0	98.0	92.0	95.3

模型	Angle	Length	Scale	Quantity	Depth	Volume	平均
Qwen2.5-VL-72B	34.2	50.6	43.4	80.3	52.6	59.2	53.3
InternVL2.5-78B	36.9	58.6	49.0	79.6	52.6	62.6	56.5
GPT-4o	27.5	30.3	37.1	60.5	35.7	47.6	39.6
LLaVA-v1.6-34B	28.9	54.9	23.1	68.0	63.6	63.3	50.6
人类	~ 95	~ 95	~ 95	~ 95	~ 95	~ 95	~ 95

角度估计是所有模型的最大短板：即使最好的模型（InternVL2.5-78B）也仅 36.9%，接近随机（25%），而人类 90%。角度感知可能需要空间旋转推理能力
数量感知在真实场景下表现较好：Qwen2.5-VL-72B 在真实数据的 Quantity 上达 80.3%，但在合成数据上仅 57.7%，说明预训练数据中计数场景较多
模型规模帮助有限：同系列模型从 3B 到 72B 参数量增长 24 倍，平均准确率仅提升约 16 个百分点
多模态数学/CoT 模型无显著优势：说明数字感知是独立于符号推理的能力维度
同系列新版优于旧版（如 Qwen2.5-VL > Qwen2-VL），暗示数据和训练方法迭代能缓慢提升数字感知

评测维度设计全面且有理论基础：7 种数值属性 × 4 种估计任务的交叉覆盖远超现有基准，且从认知科学的 Approximate Number System 出发，理论根基扎实
揭示了一个被忽视的能力瓶颈：MLLM 在直觉数字感知上的表现接近随机，这可能是很多下游任务（如图表理解、空间推理）失败的潜在原因
合成 + 真实的互补设计巧妙：合成数据排除了场景复杂性的干扰来测量纯数字能力，真实数据检验实用性。两者结果的差异本身就揭示了有趣规律