UNICBench: UNIfied Counting Benchmark for MLLM¶

会议: CVPR 2026
arXiv: 2603.00595
代码: 公开评估工具包
领域: 多模态基准 / MLLM评估
关键词: counting benchmark, multimodal LLM, image-text-audio, unified evaluation, stratified difficulty

一句话总结¶

推出UNICBench，首个统一的跨模态（图像/文本/音频）多层级计数基准，包含5,508+5,888+2,905共14,301个QA对及三级能力(Pattern/Semantic/Reasoning)×三级难度(Easy/Medium/Hard)分类，系统评估45个SOTA MLLM，揭示基本计数任务趋近但推理级和困难任务存在显著差距。

研究背景与动机¶

领域现状：计数是多模态大模型的核心认知能力，关乎数感（人类和动物的基本认知）。MLLM在通用VQA/推理基准上进展迅速，但缺乏将"计数"作为独立能力进行跨模态系统评估的基准。

现有痛点：(1) 图像计数数据集标注格式不统一（点/框/密度图），难以直接用于MLLM的QA评测；(2) 文本和音频计数数据极度稀缺——文档去重计数、音频事件计数几乎无公开QA数据集；(3) 评估协议不一致——不同工作的split/prompt/seed/匹配规则各异，结果不可比；(4) 闭源模型API成本高、速率受限，跨模型公平对比困难。

核心矛盾：计数能力横跨感知定位、语义过滤、规则推理三个层次，现有基准要么只覆盖单一模态，要么不区分能力层级，无法系统定位MLLM的计数瓶颈。

本文目标 建立一个覆盖图像/文本/音频三模态、有统一QA格式和评估协议、并能分层诊断能力短板的计数基准。

切入角度：设计三级能力分类(Pattern/Semantic/Reasoning)和三级难度分类(Easy/Medium/Hard)的交叉分类体系，配合evidence-first GT和确定性数字解析。

核心 idea：将计数能力分解为感知计数→语义过滤→规则推理三个层次，跨图像/文本/音频统一评测，用MAE/HitRate等指标分层诊断MLLM的计数瓶颈。

方法详解¶

整体框架¶

UNICBench包含三个模态的QA语料库，统一的QA-evidence schema，标准化评估协议（固定split/prompt/seed+模态特定匹配规则），以及分层报告框架（按能力×难度×模态交叉汇报）。

关键设计¶

三级能力×三级难度分类体系
- Pattern (L1)：直接感知计数，\(y=|E|\)，如"图中有多少人？"
- Semantic (L2)：属性过滤/去重，\(y=|\{e \in E | P(e)\}|\)，如"穿红衣的人有多少？"
- Reasoning (L3)：规则驱动/组合计数，\(y=g(|S_1|,\ldots)\)，如"2022年修改的文件夹？"
- 难度按客观度量（密度/遮挡/重复率）映射为Easy(1-10)/Medium(11-100)/Hard(>100)
- 设计动机：交叉分类使得诊断精确——可以区分"是感知不行还是推理不行""是简单场景不行还是密集场景不行"
Evidence-first GT与跨模态统一Schema
- 每个GT包含gt_count和结构化gt_evidence（图像:实例坐标，文本:字符span，音频:时间戳）
- 问题模板：L1用确定性模板减少语言变异，L2/L3用自由格式但显式指定过滤规则
- 采用多阶段质量控制：双独立标注+仲裁，100%标注一致性
- 设计动机：evidence可追溯确保GT可验证，统一schema使跨模态对比有意义
标准化评估协议
- 固定split/prompt/seed消除随机性
- 模态特定匹配规则（数值精确匹配 vs ε-容差）
- 确定性数字解析（从自然语言响应中提取数字）
- 评估指标：MAE、MSE、SuccessRate、HitRate(@100%/@90%/@80%)

损失函数 / 训练策略¶

UNICBench为评测基准，不涉及模型训练。评估指标定义： - MAE = \(\frac{1}{N}\sum|y_i - \hat{y}_i|\)，MSE = \(\frac{1}{N}\sum(y_i - \hat{y}_i)^2\) - HitRate@X% = 允许X%误差范围内的准确率 - SuccessRate = 模型成功返回可解析数字的比率

实验关键数据¶

主实验（图像模态Top-10模型）¶

模型	Overall MAE↓	Easy MAE↓	Hard MAE↓	Pattern MAE↓	Reasoning MAE↓
GPT-5-mini	29.8	2.1	155.0	25.4	5.3
o4-mini	42.9	2.2	239.1	39.1	4.1
GPT-4o	43.2	2.4	238.4	41.7	5.4
GPT-o3	49.0	2.8	277.1	44.3	4.4
GPT-5	54.1	2.5	312.4	55.1	5.9
Claude-Sonnet-4	78.1	5.4	444.6	68.8	4.4
Gemini-2.5-Pro	90.0	4.3	504.9	71.1	4.6
Gemini-2.5-Flash	140.5	12.0	694.2	131.4	6.7
GLM-4.1V-9B	97.9	3.0	542.2	90.0	3.1
GPT-4o-mini	73.3	2.3	424.6	72.7	5.3

跨模态/跨难度分析¶

维度	发现
Easy vs Hard	Easy MAE 2-5，Hard MAE 100-700，差距100倍以上
Pattern vs Reasoning	图像Reasoning MAE低(3-7)但样本少(4.6%)，Pattern高MAE来自高密度场景
文本模态	Reasoning占比43.7%最高，模型在去重/跨段聚合上普遍差
音频模态	环境音事件密度低(1.56/样本)，会议语音密度极高(81.51/样本)
长尾分布	GT计数分布严重右偏长尾，高计数区域模型误差爆炸

关键发现¶

简单计数任务（L1+Easy）各模型趋近，Easy MAE差距仅2-12
Hard分区差距巨大——最好(GPT-5-mini 155)与最差(Gemini-2.5-Flash 694)相差4.5倍
文本模态的Reasoning任务（去重引用、跨段统计）是当前MLLM最大短板
开源模型在Reasoning上意外表现不错（GLM-4.1V MAE 3.1），但Pattern上差距明显

亮点与洞察¶

首个跨三模态的统一计数基准——将"计数"作为核心认知能力独立评估，填补空白
三级能力×三级难度的交叉分类使诊断精确，可定位"哪个能力层级在哪个难度上失败"
Evidence-first GT设计确保每个答案可追溯验证
长尾分布分析揭示模型在高计数场景的系统性失败——不是随机误差而是认知盲区
评估45个模型的覆盖面极广，结论有统计说服力

局限与展望¶

音频计数数据量相对较少（2,069样本 vs 图像5,300），音频维度的结论稳健性有限
闭源API的评测成本高（GPT-5级别），限制了复现和扩展
多模态联合计数（如视频中同时用视觉+音频计数）未涉及
图像模态Reasoning仅占4.6%，该层级的结论样本量较小
未探索few-shot/chain-of-thought等增强策略对计数性能的影响

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一跨模态计数基准，分类体系设计合理
实验充分度: ⭐⭐⭐⭐⭐ 45个模型全面评测，三维度交叉分析
写作质量: ⭐⭐⭐⭐ 分类体系清晰，可视化丰富
价值: ⭐⭐⭐⭐ 揭示了MLLM计数能力的系统性缺陷，基准有长期使用价值