AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models¶

会议: CVPR 2026
arXiv: 2506.09082
代码: https://zheda-mai.github.io/AVA-Bench/ (开源)
领域: 3D视觉 / 视觉基础模型评估
关键词: VFM评估, 原子视觉能力, benchmark, 能力解耦, 视觉问答

一句话总结¶

提出 AVA-Bench，将视觉基础模型(VFM)的评估分解为14种"原子视觉能力"(AVA)，通过训练/测试分布对齐和单能力隔离测试，精确定位 VFM 的优势和短板，发现0.5B的LLM就能保持与7B相同的VFM排名，评估成本降低8倍。

研究背景与动机¶

领域现状：视觉基础模型（如DINOv2、CLIP、SAM等）百花齐放，评估方式主要有两种——任务特定评估（如ImageNet分类、COCO检测）和通用VQA评估（用LLM做通用头，在VQA benchmark上测试）。
现有痛点：通用VQA评估存在两个盲区：(i) 指令微调数据与VQA测试分布不一致，模型答错可能是数据不匹配而非视觉能力不足；(ii) VQA问题通常需要多种视觉能力同时工作，无法判断错误是缺少所有能力还是仅缺某一关键能力。
核心矛盾：复合任务的评估无法进行能力归因——一个VFM在VQA上表现差，到底是哪种能力不行？当前方法无法回答。
本文要解决什么？ 设计一个能隔离单一视觉能力进行测试的benchmark，同时保证训练/测试分布一致，消除数据mismatch带来的干扰。
切入角度：将复杂视觉推理分解为14种"原子视觉能力"（类似化学元素周期表的思路），每种能力单独评估。
核心idea一句话：通过原子化拆分+分布对齐，把VFM评估从"猜测性选择"变为"工程化选型"。

方法详解¶

整体框架¶

输入是各种VFM（DINOv2, CLIP, SigLIP, SAM, MiDaS, AIMv2, RADIO等），输出是每个VFM在14种原子视觉能力上的"能力指纹"。中间流程：(1) 定义14种AVA；(2) 针对每种AVA构建独立的训练/测试数据（分布对齐）；(3) 冻结VFM，用LLM做通用头，对每种AVA独立微调connector+LoRA；(4) 在对应AVA测试集上评估。

关键设计¶

14种原子视觉能力的定义与选择:
做什么：将复杂视觉推理拆解为14种基础感知能力
核心思路：从两个来源交叉确定AVA集合——(a) 合成文本到图像benchmark（T2I）中的视觉原语（数量、颜色、纹理、空间关系等），(b) 用GPT-4分析VQA数据集中的问题需要哪些视觉技能。两者交集得到14种AVA：定位、计数、空间推理、方向、颜色、纹理、情感、绝对/相对深度估计、动作/细粒度/物体/场景识别、OCR。
设计动机：排除非感知推理（如数学推理），聚焦纯视觉感知，使评估结果真正反映VFM的视觉能力。
分布对齐的数据构建:
做什么：为每种AVA构建训练/测试分布完全一致的数据集
核心思路：每种AVA的训练集和测试集按80/20划分，且保证训练中出现的物体类别、答案区间在测试中完全一致。例如计数任务中平衡每个数量区间的样本数，深度任务中确保每个物体类在不同深度区间均匀分布。
设计动机：消除"训练数据缺少某类样本导致测试失败"的假象，保证失败真正来自VFM视觉能力不足。
与之前方法的区别：传统VQA benchmark的训练/测试分布经常不对齐，导致了"数据偏移"噪声。
Bounding Box隔离策略:
做什么：通过提供目标物体的bounding box，将"定位"能力与其他能力解耦
核心思路：例如评估深度估计时，提供目标物体的bbox，避免模型需要先定位再估算深度。评估空间推理时，用红蓝bbox标记两个物体，只测空间关系判断能力。
设计动机：验证了有效性——提供bbox时所有VFM在空间推理上表现相当且优秀，去掉bbox后表现分化严重、与定位能力排名高度相关，证明复合任务中的失败往往来自某一特定短板AVA。
轻量级LLM评估策略:
做什么：发现0.5B的LLM就能保持VFM的排名一致性
核心思路：当目标是比较VFM的相对排名（而非追求最高绝对精度）时，0.5B Qwen2 和 7B Vicuna-1.5 产生几乎相同的VFM排名，计算成本降低约 \(8\times\)。
设计动机：使得大规模VFM评估在实际中可行，不再需要昂贵的大模型做评估头。

数据构建细节¶

总计 218K 条图像-问题对，来自 26个 多样化数据集
覆盖通用场景、野生动物、车辆、室内外、遥感等多种域
每种AVA都有严格的质量控制：样本平衡、最小bbox面积阈值、物体类别多样性

评估指标¶

绝对深度和计数：归一化MAE
定位：GIoU
颜色：CIEDE2000色差
OCR：ANLS（归一化Levenshtein相似度）
其余AVA：标准准确率

实验关键数据¶

主实验¶

VFM	预训练方式	平均排名	最强AVA	最弱AVA
SigLIP-2	语言监督(Sigmoid对比)	1-2	多数AVA均优	—
SigLIP-1	语言监督(Sigmoid对比)	1-2	OCR等语言相关	—
AIMv2	多模态自回归	2-3	通用性强	—
InternVL-2.5	语言监督	中等	—	—
CLIP	语言监督(对比)	中等	—	—
RADIO	多教师蒸馏	中上	综合性能稳健	—
DINOv2	自监督	中等	方向识别、定位	OCR等语言任务
SAM	分割监督	较低	颜色识别最佳	多数AVA较差
MiDaS	深度监督	较低	深度相关	多数AVA较差

消融实验¶

配置	关键表现	说明
有bbox空间推理	所有VFM表现均优且相当	bbox成功隔离了定位能力
无bbox空间推理	VFM表现分化严重	排名与定位能力高度相关
0.5B LLM评估头	VFM排名与7B一致	评估成本降低8×
7B LLM评估头	基准排名	绝对精度更高但排名不变
大物体定位(0.3-0.5)	所有VFM差异极小	大物体定位是低级能力，都能做好
小物体定位(<0.1)	MiDaS、SAM显著变差	小物体定位暴露了真正的能力差距

关键发现¶

语言监督是关键：SigLIP-2 和 AIMv2 在大多数AVA上领先，说明语言监督对通用视觉能力至关重要
专用VFM有细分优势：DINOv2在方向识别上与语言监督模型持平甚至更好；SAM在颜色识别上最优
低级能力已经饱和：纹理识别、相对深度估计、物体识别等低中级AVA，所有VFM表现都很好，说明VQA失败主要来自特定高级AVA的短板
非语言对齐VFM的瓶颈在connector：DINOv2的线性探测精度66.3%，过connector后降到25.67%，关键视觉信息在模态对齐过程中被破坏

亮点与洞察¶

原子化评估思路非常巧妙：把"VFM到底好不好"这种模糊问题转化为"14个维度各好不好"的精确问题，类似于心理测量学中的因子分析。这个思路可以迁移到任何需要细粒度能力诊断的场景。
Bbox隔离实验漂亮地证明了方法论的合理性：有bbox时能力相当，无bbox时表现分化，这个对比实验设计值得学习。
0.5B vs 7B的发现具有实际价值：当关心的是排名而非绝对精度时，小模型完全够用，这个insight可以推广到其他benchmark评估中。
数据构建中的分布对齐和偏差消除策略（如计数的区间平衡、深度的类别-区间分布均衡）是benchmark设计的标杆做法。

局限性 / 可改进方向¶

14种AVA的选择虽有文献支撑，但可能不完整——例如缺少光照理解、遮挡推理、透视理解等能力
每种AVA的评估数据量不均（从8.5K到44.9K），小规模AVA的评估可靠性可能不足
评估pipeline依赖LLaVA架构，不同的LLM集成方式可能影响结论
仅评估了静态图像能力，未涉及视频理解中的时序视觉能力
非语言对齐VFM通过connector映射后信息损失严重，这算是评估pipeline的固有限制，不完全是VFM本身的问题

评分¶

新颖性: ⭐⭐⭐⭐ 原子化分解评估的理念虽直觉上合理，但之前没人系统做过，执行质量很高
实验充分度: ⭐⭐⭐⭐⭐ 覆盖了9个VFM×14种AVA，消融实验（bbox、LLM大小、物体尺度）设计精巧
写作质量: ⭐⭐⭐⭐⭐ 图表设计精美（雷达图、热力图、排名图），逻辑清晰，motivating example生动
价值: ⭐⭐⭐⭐ 对VFM选型有直接指导意义，但benchmark的持续更新和社区采纳度还需观察