跳转至

AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models

会议: CVPR 2026
arXiv: 2506.09082
代码: https://zheda-mai.github.io/AVA-Bench/ (开源)
领域: 3D视觉 / 视觉基础模型评估
关键词: VFM评估, 原子视觉能力, benchmark, 能力解耦, 视觉问答

一句话总结

提出 AVA-Bench,将视觉基础模型(VFM)的评估分解为14种"原子视觉能力"(AVA),通过训练/测试分布对齐和单能力隔离测试,精确定位 VFM 的优势和短板,发现0.5B的LLM就能保持与7B相同的VFM排名,评估成本降低8倍。

研究背景与动机

  1. 领域现状:视觉基础模型(如DINOv2、CLIP、SAM等)百花齐放,评估方式主要有两种——任务特定评估(如ImageNet分类、COCO检测)和通用VQA评估(用LLM做通用头,在VQA benchmark上测试)。
  2. 现有痛点:通用VQA评估存在两个盲区:(i) 指令微调数据与VQA测试分布不一致,模型答错可能是数据不匹配而非视觉能力不足;(ii) VQA问题通常需要多种视觉能力同时工作,无法判断错误是缺少所有能力还是仅缺某一关键能力。
  3. 核心矛盾:复合任务的评估无法进行能力归因——一个VFM在VQA上表现差,到底是哪种能力不行?当前方法无法回答。
  4. 本文要解决什么? 设计一个能隔离单一视觉能力进行测试的benchmark,同时保证训练/测试分布一致,消除数据mismatch带来的干扰。
  5. 切入角度:将复杂视觉推理分解为14种"原子视觉能力"(类似化学元素周期表的思路),每种能力单独评估。
  6. 核心idea一句话:通过原子化拆分+分布对齐,把VFM评估从"猜测性选择"变为"工程化选型"。

方法详解

整体框架

输入是各种VFM(DINOv2, CLIP, SigLIP, SAM, MiDaS, AIMv2, RADIO等),输出是每个VFM在14种原子视觉能力上的"能力指纹"。中间流程:(1) 定义14种AVA;(2) 针对每种AVA构建独立的训练/测试数据(分布对齐);(3) 冻结VFM,用LLM做通用头,对每种AVA独立微调connector+LoRA;(4) 在对应AVA测试集上评估。

关键设计

  1. 14种原子视觉能力的定义与选择:
  2. 做什么:将复杂视觉推理拆解为14种基础感知能力
  3. 核心思路:从两个来源交叉确定AVA集合——(a) 合成文本到图像benchmark(T2I)中的视觉原语(数量、颜色、纹理、空间关系等),(b) 用GPT-4分析VQA数据集中的问题需要哪些视觉技能。两者交集得到14种AVA:定位、计数、空间推理、方向、颜色、纹理、情感、绝对/相对深度估计、动作/细粒度/物体/场景识别、OCR。
  4. 设计动机:排除非感知推理(如数学推理),聚焦纯视觉感知,使评估结果真正反映VFM的视觉能力。

  5. 分布对齐的数据构建:

  6. 做什么:为每种AVA构建训练/测试分布完全一致的数据集
  7. 核心思路:每种AVA的训练集和测试集按80/20划分,且保证训练中出现的物体类别、答案区间在测试中完全一致。例如计数任务中平衡每个数量区间的样本数,深度任务中确保每个物体类在不同深度区间均匀分布。
  8. 设计动机:消除"训练数据缺少某类样本导致测试失败"的假象,保证失败真正来自VFM视觉能力不足。
  9. 与之前方法的区别:传统VQA benchmark的训练/测试分布经常不对齐,导致了"数据偏移"噪声。

  10. Bounding Box隔离策略:

  11. 做什么:通过提供目标物体的bounding box,将"定位"能力与其他能力解耦
  12. 核心思路:例如评估深度估计时,提供目标物体的bbox,避免模型需要先定位再估算深度。评估空间推理时,用红蓝bbox标记两个物体,只测空间关系判断能力。
  13. 设计动机:验证了有效性——提供bbox时所有VFM在空间推理上表现相当且优秀,去掉bbox后表现分化严重、与定位能力排名高度相关,证明复合任务中的失败往往来自某一特定短板AVA。

  14. 轻量级LLM评估策略:

  15. 做什么:发现0.5B的LLM就能保持VFM的排名一致性
  16. 核心思路:当目标是比较VFM的相对排名(而非追求最高绝对精度)时,0.5B Qwen2 和 7B Vicuna-1.5 产生几乎相同的VFM排名,计算成本降低约 \(8\times\)
  17. 设计动机:使得大规模VFM评估在实际中可行,不再需要昂贵的大模型做评估头。

数据构建细节

  • 总计 218K 条图像-问题对,来自 26个 多样化数据集
  • 覆盖通用场景、野生动物、车辆、室内外、遥感等多种域
  • 每种AVA都有严格的质量控制:样本平衡、最小bbox面积阈值、物体类别多样性

评估指标

  • 绝对深度和计数:归一化MAE
  • 定位:GIoU
  • 颜色:CIEDE2000色差
  • OCR:ANLS(归一化Levenshtein相似度)
  • 其余AVA:标准准确率

实验关键数据

主实验

VFM 预训练方式 平均排名 最强AVA 最弱AVA
SigLIP-2 语言监督(Sigmoid对比) 1-2 多数AVA均优
SigLIP-1 语言监督(Sigmoid对比) 1-2 OCR等语言相关
AIMv2 多模态自回归 2-3 通用性强
InternVL-2.5 语言监督 中等
CLIP 语言监督(对比) 中等
RADIO 多教师蒸馏 中上 综合性能稳健
DINOv2 自监督 中等 方向识别、定位 OCR等语言任务
SAM 分割监督 较低 颜色识别最佳 多数AVA较差
MiDaS 深度监督 较低 深度相关 多数AVA较差

消融实验

配置 关键表现 说明
有bbox空间推理 所有VFM表现均优且相当 bbox成功隔离了定位能力
无bbox空间推理 VFM表现分化严重 排名与定位能力高度相关
0.5B LLM评估头 VFM排名与7B一致 评估成本降低8×
7B LLM评估头 基准排名 绝对精度更高但排名不变
大物体定位(0.3-0.5) 所有VFM差异极小 大物体定位是低级能力,都能做好
小物体定位(<0.1) MiDaS、SAM显著变差 小物体定位暴露了真正的能力差距

关键发现

  • 语言监督是关键:SigLIP-2 和 AIMv2 在大多数AVA上领先,说明语言监督对通用视觉能力至关重要
  • 专用VFM有细分优势:DINOv2在方向识别上与语言监督模型持平甚至更好;SAM在颜色识别上最优
  • 低级能力已经饱和:纹理识别、相对深度估计、物体识别等低中级AVA,所有VFM表现都很好,说明VQA失败主要来自特定高级AVA的短板
  • 非语言对齐VFM的瓶颈在connector:DINOv2的线性探测精度66.3%,过connector后降到25.67%,关键视觉信息在模态对齐过程中被破坏

亮点与洞察

  • 原子化评估思路非常巧妙:把"VFM到底好不好"这种模糊问题转化为"14个维度各好不好"的精确问题,类似于心理测量学中的因子分析。这个思路可以迁移到任何需要细粒度能力诊断的场景。
  • Bbox隔离实验漂亮地证明了方法论的合理性:有bbox时能力相当,无bbox时表现分化,这个对比实验设计值得学习。
  • 0.5B vs 7B的发现具有实际价值:当关心的是排名而非绝对精度时,小模型完全够用,这个insight可以推广到其他benchmark评估中。
  • 数据构建中的分布对齐和偏差消除策略(如计数的区间平衡、深度的类别-区间分布均衡)是benchmark设计的标杆做法。

局限性 / 可改进方向

  • 14种AVA的选择虽有文献支撑,但可能不完整——例如缺少光照理解、遮挡推理、透视理解等能力
  • 每种AVA的评估数据量不均(从8.5K到44.9K),小规模AVA的评估可靠性可能不足
  • 评估pipeline依赖LLaVA架构,不同的LLM集成方式可能影响结论
  • 仅评估了静态图像能力,未涉及视频理解中的时序视觉能力
  • 非语言对齐VFM通过connector映射后信息损失严重,这算是评估pipeline的固有限制,不完全是VFM本身的问题

相关工作与启发

  • vs MMBench/SEED等通用VQA benchmark: 它们是"综合考试",AVA-Bench是"单项体检",两者互补而非替代
  • vs Platonic Representation Hypothesis [Huh et al.]: AVA-Bench的实验部分支持该假说(低级能力趋同)但高级能力仍有显著差异,给出了更nuanced的验证
  • vs RADIO [Ranzinger et al.]: RADIO通过多教师蒸馏融合多个VFM,在AVA-Bench上表现稳健,验证了模型融合路线的有效性

评分

  • 新颖性: ⭐⭐⭐⭐ 原子化分解评估的理念虽直觉上合理,但之前没人系统做过,执行质量很高
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖了9个VFM×14种AVA,消融实验(bbox、LLM大小、物体尺度)设计精巧
  • 写作质量: ⭐⭐⭐⭐⭐ 图表设计精美(雷达图、热力图、排名图),逻辑清晰,motivating example生动
  • 价值: ⭐⭐⭐⭐ 对VFM选型有直接指导意义,但benchmark的持续更新和社区采纳度还需观察