Information Density Principle for MLLM Benchmarks¶

会议: ICCV 2025
arXiv: 2503.10079
代码: GitHub
领域: 多模态VLM
关键词: 基准评价, 信息密度, MLLM评估, benchmark质量, 元评估

一句话总结¶

提出"信息密度"原则从 Fallacy（错误）、Difficulty（难度）、Redundancy（冗余）、Diversity（多样性）四个维度评估 MLLM benchmark 质量，构建了一套 Human-Model-Data 三级自动化评估流水线，对 19 个主流 benchmark 进行了系统性的"benchmark for benchmark"分析。

研究背景与动机¶

随着多模态大语言模型（MLLM）快速发展，目前已有 300+ MLLM 基准测试集，开发者面临两大困境：

选择困难：面对海量 benchmark，不知道哪个最能揭示模型的强弱

评估机制本身不可靠：许多 benchmark 存在以下缺陷： - Fallacy（谬误）：题目或标注本身有误，反映的信息不可靠 - Difficulty（难度不足）：题目太简单，几乎所有模型都能答对，无法提供有意义的区分 - Redundancy（冗余）：仅凭部分信息（如纯文本不看图）就能答对，多出的模态是冗余的 - Diversity（多样性不足）：多个样本问的是同类问题，导致信息重叠

核心问题：从未有人系统地评估过这些评估基准本身——benchmark 作为评估机制，自身需要被评估。

方法详解¶

整体框架¶

基于信息论建立"信息密度"的理论基础，将抽象的"洞察力"分解为四个可量化维度的乘积：

\[E(I) \propto (1 - D_{fal}) \cdot D_{dif} \cdot (1 - D_{red}) \cdot D_{div}\]

其中 \(D_{fal}\) 是谬误率，\(D_{dif}\) 是难度，\(D_{red}\) 是冗余度，\(D_{div}\) 是多样性。信息密度越高，benchmark 对 MLLM 开发者越有价值。

构建三级评估范式： - Human Eval（成本最高，精度最高）：人类专家标注，作为 ground truth - Model Eval（中等成本）：使用 MLLM 推理结果反映数据质量 - Data Eval（成本最低）：直接分析数据本身的特征，无需模型推理

关键设计¶

Difficulty 评估：
- Model Eval：用 GPT-4o、InternVL-2.5、QwenVL-2.5 三模型投票，定义 Junior（至少一个错）、Extreme（全错）、Ambiguity（最佳和备选答案在模型间交叉）三个子维度
- \(D_{dif} = P(Q_{jun}) + P(Q_{amb})\)
- Data Eval：从图像结构复杂度（2D 拉普拉斯算子）、文本语法深度（语法树）、选项语义距离（CLIP 距离）、关注区域大小（语法根节点熵）四个特征拟合 Model Eval 结果
Fallacy 评估（仅 Human Eval）：
- 在 Difficulty 筛出的困难样本中，人类专家标注三种谬误：Question（问题本身有误）、Annotation（标注有误但有其他正确选项）、Ambiguity（多选项均合理）
- \(D_{fal} = P((Q_{que} + Q_{ano} + Q_{amb}) | D_{dif}=1)\)
Redundancy 评估：
- Model Eval：分别去掉图像/文本，让模型推理，若仍能答对则说明被去掉的模态冗余
- \(D_{red} = \frac{w_{img} \cdot \mathrm{Acc}(\overline{I_{img}}) + w_{txt} \cdot \mathrm{Acc}(\overline{I_{txt}})}{w_{img} + w_{txt}}\)
- 使用 QwenVL-2.5 推理（其他模型会拒绝回答）
Diversity 评估：
- Model Eval：用 CLIP 编码器对图像/文本样本做聚类和去重，剩余样本比例即多样性
- \(D_{div} = \frac{w_{img} \cdot \frac{\#(\mathrm{SIM}(I_{img}))}{\#(I_{img})} + w_{txt} \cdot \frac{\#(\mathrm{SIM}(I_{txt}))}{\#(I_{txt})}}{w_{img} + w_{txt}}\)
- Data Eval：图像用 5 个低层特征（亮度、对比度、色彩、模糊、纹理）的分布方差；文本用 10 种疑问词类型的覆盖率

损失函数 / 训练策略¶

本文是评估方法论，不涉及模型训练。Data Eval 中使用线性回归拟合 Model Eval 结果。

实验关键数据¶

主实验（19 个 Benchmark 的信息密度对比）¶

Benchmark	Fallacy↓	Difficulty↑	Redundancy↓	Diversity↑	发布时间
MMStar	0.135	0.546	0.054	0.827	Mar-2024
Q-Bench	0.280	0.373	0.175	0.951	Sep-2023
RealWorldQA	0.247	0.379	0.113	0.756	Apr-2024
HallusionBench	0.269	0.465	0.312	0.191	Oct-2023
POPE	0.557	0.119	0.562	0.383	May-2023
MME	0.526	0.206	0.133	0.842	Jun-2023
A-okvqa	0.597	0.157	0.243	0.882	Jun-2022

Model/Data Eval 与 Human Eval 的相关性¶

维度	Model Eval Pearson r	Data Eval Pearson r
Difficulty	>0.7	>0.7
Redundancy	>0.7	-
Diversity (Image)	>0.8	>0.7
Diversity (Text)	>0.7	>0.7

关键发现¶

MMStar 综合表现最佳：谬误率最低（0.135）、难度最高（0.546）、冗余度最低（0.054），是当前信息密度最高的 benchmark
早期 benchmark 普遍存在问题：POPE（2023.5）冗余度高达 0.562，多样性仅 0.383；A-okvqa（2022.6）谬误率 0.597
新 benchmark 有改善但仍有空间：2024 年的 benchmark 在各维度上总体优于早期版本，但没有一个在四个维度上都达到最优
Model/Data Eval 与 Human Eval 相关系数均超 0.7，验证了自动化评估流水线的合理性

亮点与洞察¶

元评估视角新颖："评估评估机制本身"是一个被忽视但极其重要的方向，该工作首次系统化
信息论基础扎实：将四个维度统一在信息熵框架下推导，不是简单的 ad-hoc 指标堆叠
三级评估的实用设计：从全人工到全自动逐级降低成本，benchmark 开发者可以按需选用
Redundancy 的发现很有价值：揭示了许多 benchmark 的"图文多模态"是假的——仅凭文本就能答对

局限与展望¶

Fallacy 维度只能靠人工标注，无法自动化，限制了大规模应用
仅评估了 MCQ 格式的 benchmark，VQA 开放式回答的 benchmark 尚未覆盖
Redundancy 的 Model Eval 仅用了 QwenVL-2.5 一个模型（因为其他模型会拒绝回答不完整输入），可能存在偏差
未考虑 benchmark 的时效性和数据污染问题（训练数据泄漏）

评分¶

新颖性：⭐⭐⭐⭐⭐ （首次系统性地"评估 benchmark"，开辟新方向）
技术深度：⭐⭐⭐⭐ （信息论推导+三级自动化流水线设计）
实验充分度：⭐⭐⭐⭐ （19 个 benchmark、17912 样本、多维度对比）
实用价值：⭐⭐⭐⭐⭐ （直接指导 benchmark 选择和开发）