HRScene: How Far Are VLMs from Effective High-Resolution Image Understanding?¶

会议: ICCV 2025
arXiv: 2504.18406
代码: 项目主页
领域: medical_imaging（跨多领域基准，含医学影像）
关键词: 高分辨率图像理解, VLM基准, 视觉语言模型, 多模态评估, Needle-in-a-Haystack

一句话总结¶

提出 HRScene 基准，涵盖 25 个真实场景和 2 个诊断数据集（分辨率 1K-35K），评估 28 个 VLM 后发现：当前最强模型在真实高分辨率任务上平均准确率仅约 50%，且存在显著的区域差异和 lost-in-middle 问题。

高分辨率图像 (HRI) 理解在病理学、自动驾驶、文档理解等领域至关重要。虽然 Gemini、Claude、GPT 等 VLM 声称支持高分辨率输入，但存在严重的评估缺口：

缺乏基准: 主流 VLM 报告中评估的基准（MMMU、VQAv2、AI2D 等）平均分辨率低于 1K，不适合 HRI 评估

场景单一: 现有 HRI 数据集仅关注特定场景（如远距离图像）或特定分辨率（如 8K）

诊断不足: 现有 multi-modal NIAH 测试主要关注长文本或低分辨率多图像，缺乏对 HRI 区域利用能力的诊断

本文动机：构建一个统一、全面、易用的 HRI 基准，系统评估 VLM 的高分辨率理解能力并发现其核心缺陷。

HRScene 包含两大部分： - 25 个真实场景数据集: 分辨率 1K-35K，覆盖 8 大类别 - 2 个合成诊断数据集: 用于精确定位 VLM 缺陷

场景分类体系 (Taxonomy):
- 8 大类别: 日常照片、城市规划、扫描文档、艺术品、多子图、遥感、医学诊断、研究理解
- 25 个具体场景: 从显微镜到射电望远镜，覆盖各种相机类型
- 多种能力测试: 计数、时序/语义推理、整体判断、视觉检索、空间关系、小目标检测
- 6 个数据集需要领域专家知识，19 个属于通用领域
数据收集与重标注:
- 从 25 个现有数据源收集，8 个由 10 名研究生级标注员重标注
- 所有图像分辨率 ≥ 1024×1024
- 为 6 个数据集构建干扰选项（每个样本至少 4 个选项）
- 数字答案通过随机偏移自动生成选项
- 进一步收集 750 样本的人类表现作为上界
WhiteBackground NIAH 诊断:
- 将 VQAv2 图像（needle）放置在 N×N 白色网格（haystack）的不同行列位置
- 评估 VLM 在不同网格位置的性能差异，检测区域差异 (Regional Divergence)
- 测试 1×1 到 10×10 网格大小
ComplexGrid NIAH 诊断:
- 用图像检索工具找到与 needle 最相似的图像作为 distractor
- 组合成更大网格，要求模型指出 needle 所在行列
- 评估 VLM 在多个干扰图像中检索正确图像的能力

真实世界数据集总体表现:

模型	Art	Daily	Medical	Paper	Remote	Research	Sub-Img	Urban	Avg
Qwen2-VL 7B	69.46	64.20	40.40	64.62	50.60	36.69	71.42	40.17	56.65
InternVL2 40B	74.35	62.67	38.10	70.89	44.16	43.15	74.10	44.40	58.45
Qwen2-VL 72B	75.85	66.20	43.69	78.13	52.48	39.36	74.89	44.66	61.85
Gemini2.0 Flash	76.46	62.27	51.94	75.12	47.59	34.85	68.62	44.54	59.82
GPT-4o	69.13	55.90	22.63	66.80	44.05	35.38	65.13	41.72	52.91
Human	75.33	77.75	23.81	88.75	58.33	48.50	90.00	55.25	64.72
28模型平均	61.54	53.18	36.64	58.17	41.75	36.08	60.60	37.84	49.68

WhiteBackground NIAH 诊断 — 区域差异分析:

模型	1×1 Perf	3×3 Perf	3×3 Region↓	5×5 Perf	5×5 Region↓	10×10 Perf	10×10 Region↓
Qwen2-VL 7B	85.93	84.22	5.30	83.14	6.52	79.91	10.56
Qwen2-VL 72B	84.13	84.51	5.62	84.04	6.62	84.56	9.61
GPT-4o-mini	68.66	60.69	13.77	52.53	19.59	32.94	33.65
DeepSeek-VL2	72.06	49.71	15.75	34.29	23.37	23.95	23.30
InternVL2 40B	84.53	83.42	4.57	80.02	8.84	74.95	13.18

（Region 指标 = 不同位置性能的标准差，越低越好）

整体差距显著: 28 个 VLM 的平均准确率仅 49.68%，最强模型 Qwen2-VL 72B 也仅 61.85%
领域差异大: Medical（36.64%）和 Research（36.08%）最差，Paper（58.17%）和 Art（61.54%）较好
人类 vs 机器: 人类平均 64.72% 但 Medical 仅 23.81%（需专家知识），Sub-Img 人类 90% 但模型仅 60%
Regional Divergence: 随网格增大，大多数模型性能显著下降（如 GPT-4o-mini 从 1×1 的 68.66% 降至 10×10 的 32.94%），但 Qwen2-VL 72B 几乎不受影响
参数量不总是关键: Qwen2-VL 7B 在多数指标上优于许多更大模型（如 Llava-Next 34B）
Lost-in-middle 现象: VLM 对网格中间位置的图像识别能力弱于边缘位置

HRScene 是目前最全面的 HRI 基准：25 个场景、分辨率跨 4 个数量级、覆盖专家+通用领域
两个诊断数据集的设计精巧，定量揭示了 VLM 的两个核心缺陷（区域差异和 lost-in-middle）
发现 Qwen2-VL 72B 在 WhiteBackground NIAH 中几乎不受分辨率影响（Region 指标始终低于 10），暗示其内部分辨率处理策略可能更优
人类在 Medical 上仅 23.81% 但模型平均 36.64%，说明某些专家领域模型已超越非专家人类