AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models¶
会议: CVPR 2026
arXiv: 2506.09082
代码: https://zheda-mai.github.io/AVA-Bench/ (开源)
领域: 3D视觉 / 视觉基础模型评估
关键词: VFM评估, 原子视觉能力, benchmark, 能力解耦, 视觉问答
一句话总结¶
提出 AVA-Bench,将视觉基础模型(VFM)的评估分解为14种"原子视觉能力"(AVA),通过训练/测试分布对齐和单能力隔离测试,精确定位 VFM 的优势和短板,发现0.5B的LLM就能保持与7B相同的VFM排名,评估成本降低8倍。
研究背景与动机¶
- 领域现状:视觉基础模型(如DINOv2、CLIP、SAM等)百花齐放,评估方式主要有两种——任务特定评估(如ImageNet分类、COCO检测)和通用VQA评估(用LLM做通用头,在VQA benchmark上测试)。
- 现有痛点:通用VQA评估存在两个盲区:(i) 指令微调数据与VQA测试分布不一致,模型答错可能是数据不匹配而非视觉能力不足;(ii) VQA问题通常需要多种视觉能力同时工作,无法判断错误是缺少所有能力还是仅缺某一关键能力。
- 核心矛盾:复合任务的评估无法进行能力归因——一个VFM在VQA上表现差,到底是哪种能力不行?当前方法无法回答。
- 本文要解决什么? 设计一个能隔离单一视觉能力进行测试的benchmark,同时保证训练/测试分布一致,消除数据mismatch带来的干扰。
- 切入角度:将复杂视觉推理分解为14种"原子视觉能力"(类似化学元素周期表的思路),每种能力单独评估。
- 核心idea一句话:通过原子化拆分+分布对齐,把VFM评估从"猜测性选择"变为"工程化选型"。
方法详解¶
整体框架¶
输入是各种VFM(DINOv2, CLIP, SigLIP, SAM, MiDaS, AIMv2, RADIO等),输出是每个VFM在14种原子视觉能力上的"能力指纹"。中间流程:(1) 定义14种AVA;(2) 针对每种AVA构建独立的训练/测试数据(分布对齐);(3) 冻结VFM,用LLM做通用头,对每种AVA独立微调connector+LoRA;(4) 在对应AVA测试集上评估。
关键设计¶
- 14种原子视觉能力的定义与选择:
- 做什么:将复杂视觉推理拆解为14种基础感知能力
- 核心思路:从两个来源交叉确定AVA集合——(a) 合成文本到图像benchmark(T2I)中的视觉原语(数量、颜色、纹理、空间关系等),(b) 用GPT-4分析VQA数据集中的问题需要哪些视觉技能。两者交集得到14种AVA:定位、计数、空间推理、方向、颜色、纹理、情感、绝对/相对深度估计、动作/细粒度/物体/场景识别、OCR。
-
设计动机:排除非感知推理(如数学推理),聚焦纯视觉感知,使评估结果真正反映VFM的视觉能力。
-
分布对齐的数据构建:
- 做什么:为每种AVA构建训练/测试分布完全一致的数据集
- 核心思路:每种AVA的训练集和测试集按80/20划分,且保证训练中出现的物体类别、答案区间在测试中完全一致。例如计数任务中平衡每个数量区间的样本数,深度任务中确保每个物体类在不同深度区间均匀分布。
- 设计动机:消除"训练数据缺少某类样本导致测试失败"的假象,保证失败真正来自VFM视觉能力不足。
-
与之前方法的区别:传统VQA benchmark的训练/测试分布经常不对齐,导致了"数据偏移"噪声。
-
Bounding Box隔离策略:
- 做什么:通过提供目标物体的bounding box,将"定位"能力与其他能力解耦
- 核心思路:例如评估深度估计时,提供目标物体的bbox,避免模型需要先定位再估算深度。评估空间推理时,用红蓝bbox标记两个物体,只测空间关系判断能力。
-
设计动机:验证了有效性——提供bbox时所有VFM在空间推理上表现相当且优秀,去掉bbox后表现分化严重、与定位能力排名高度相关,证明复合任务中的失败往往来自某一特定短板AVA。
-
轻量级LLM评估策略:
- 做什么:发现0.5B的LLM就能保持VFM的排名一致性
- 核心思路:当目标是比较VFM的相对排名(而非追求最高绝对精度)时,0.5B Qwen2 和 7B Vicuna-1.5 产生几乎相同的VFM排名,计算成本降低约 \(8\times\)。
- 设计动机:使得大规模VFM评估在实际中可行,不再需要昂贵的大模型做评估头。
数据构建细节¶
- 总计 218K 条图像-问题对,来自 26个 多样化数据集
- 覆盖通用场景、野生动物、车辆、室内外、遥感等多种域
- 每种AVA都有严格的质量控制:样本平衡、最小bbox面积阈值、物体类别多样性
评估指标¶
- 绝对深度和计数:归一化MAE
- 定位:GIoU
- 颜色:CIEDE2000色差
- OCR:ANLS(归一化Levenshtein相似度)
- 其余AVA:标准准确率
实验关键数据¶
主实验¶
| VFM | 预训练方式 | 平均排名 | 最强AVA | 最弱AVA |
|---|---|---|---|---|
| SigLIP-2 | 语言监督(Sigmoid对比) | 1-2 | 多数AVA均优 | — |
| SigLIP-1 | 语言监督(Sigmoid对比) | 1-2 | OCR等语言相关 | — |
| AIMv2 | 多模态自回归 | 2-3 | 通用性强 | — |
| InternVL-2.5 | 语言监督 | 中等 | — | — |
| CLIP | 语言监督(对比) | 中等 | — | — |
| RADIO | 多教师蒸馏 | 中上 | 综合性能稳健 | — |
| DINOv2 | 自监督 | 中等 | 方向识别、定位 | OCR等语言任务 |
| SAM | 分割监督 | 较低 | 颜色识别最佳 | 多数AVA较差 |
| MiDaS | 深度监督 | 较低 | 深度相关 | 多数AVA较差 |
消融实验¶
| 配置 | 关键表现 | 说明 |
|---|---|---|
| 有bbox空间推理 | 所有VFM表现均优且相当 | bbox成功隔离了定位能力 |
| 无bbox空间推理 | VFM表现分化严重 | 排名与定位能力高度相关 |
| 0.5B LLM评估头 | VFM排名与7B一致 | 评估成本降低8× |
| 7B LLM评估头 | 基准排名 | 绝对精度更高但排名不变 |
| 大物体定位(0.3-0.5) | 所有VFM差异极小 | 大物体定位是低级能力,都能做好 |
| 小物体定位(<0.1) | MiDaS、SAM显著变差 | 小物体定位暴露了真正的能力差距 |
关键发现¶
- 语言监督是关键:SigLIP-2 和 AIMv2 在大多数AVA上领先,说明语言监督对通用视觉能力至关重要
- 专用VFM有细分优势:DINOv2在方向识别上与语言监督模型持平甚至更好;SAM在颜色识别上最优
- 低级能力已经饱和:纹理识别、相对深度估计、物体识别等低中级AVA,所有VFM表现都很好,说明VQA失败主要来自特定高级AVA的短板
- 非语言对齐VFM的瓶颈在connector:DINOv2的线性探测精度66.3%,过connector后降到25.67%,关键视觉信息在模态对齐过程中被破坏
亮点与洞察¶
- 原子化评估思路非常巧妙:把"VFM到底好不好"这种模糊问题转化为"14个维度各好不好"的精确问题,类似于心理测量学中的因子分析。这个思路可以迁移到任何需要细粒度能力诊断的场景。
- Bbox隔离实验漂亮地证明了方法论的合理性:有bbox时能力相当,无bbox时表现分化,这个对比实验设计值得学习。
- 0.5B vs 7B的发现具有实际价值:当关心的是排名而非绝对精度时,小模型完全够用,这个insight可以推广到其他benchmark评估中。
- 数据构建中的分布对齐和偏差消除策略(如计数的区间平衡、深度的类别-区间分布均衡)是benchmark设计的标杆做法。
局限性 / 可改进方向¶
- 14种AVA的选择虽有文献支撑,但可能不完整——例如缺少光照理解、遮挡推理、透视理解等能力
- 每种AVA的评估数据量不均(从8.5K到44.9K),小规模AVA的评估可靠性可能不足
- 评估pipeline依赖LLaVA架构,不同的LLM集成方式可能影响结论
- 仅评估了静态图像能力,未涉及视频理解中的时序视觉能力
- 非语言对齐VFM通过connector映射后信息损失严重,这算是评估pipeline的固有限制,不完全是VFM本身的问题
相关工作与启发¶
- vs MMBench/SEED等通用VQA benchmark: 它们是"综合考试",AVA-Bench是"单项体检",两者互补而非替代
- vs Platonic Representation Hypothesis [Huh et al.]: AVA-Bench的实验部分支持该假说(低级能力趋同)但高级能力仍有显著差异,给出了更nuanced的验证
- vs RADIO [Ranzinger et al.]: RADIO通过多教师蒸馏融合多个VFM,在AVA-Bench上表现稳健,验证了模型融合路线的有效性
评分¶
- 新颖性: ⭐⭐⭐⭐ 原子化分解评估的理念虽直觉上合理,但之前没人系统做过,执行质量很高
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖了9个VFM×14种AVA,消融实验(bbox、LLM大小、物体尺度)设计精巧
- 写作质量: ⭐⭐⭐⭐⭐ 图表设计精美(雷达图、热力图、排名图),逻辑清晰,motivating example生动
- 价值: ⭐⭐⭐⭐ 对VFM选型有直接指导意义,但benchmark的持续更新和社区采纳度还需观察