跳转至

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

会议: CVPR 2026
arXiv: 2603.09326
代码: https://wwwtttjjj.github.io/OddGridBench/
领域: 多模态VLM
关键词: 视觉差异感知, Benchmark, GRPO, 课程学习, 细粒度感知

一句话总结

提出 OddGridBench 评估 MLLM 的细粒度视觉差异感知能力(找出网格中与其他元素在颜色/大小/旋转/位置上不同的那个),发现所有 MLLM 远低于人类水平,进而提出 OddGrid-GRPO(课程学习 + 距离感知奖励)显著提升模型的视觉辨别力。

研究背景与动机

  1. 领域现状:MLLM 在高层语义理解(图像描述、VQA、数学推理等)上表现出色,但对底层视觉感知的评估和研究不足。
  2. 现有痛点:现有 benchmark 主要关注高层语义推理,忽视了人类视觉系统中非常基础的能力——细粒度视觉差异感知(Just Noticeable Difference / Pop-out Effect)。这种底层感知是空间推理、物体理解的前提。
  3. 核心矛盾:没有系统化、可控的 benchmark 来量化评估 MLLM 在不同感知维度(颜色、大小、旋转、位置)上的敏感度,也缺乏针对性的训练方法来弥补这一短板。
  4. 本文要解决什么:(1) 构建可控的细粒度视觉差异感知 benchmark;(2) 揭示 MLLM 在此任务上的系统性失败模式;(3) 提出训练方法提升感知能力。
  5. 切入角度:借鉴认知心理学的 Odd-One-Out 范式,构建参数化控制的网格图像,精确量化差异程度。
  6. 核心idea:用参数化的网格图像(单元素在颜色/大小/旋转/位置上有细微差异)构建 benchmark,结合课程学习和距离感知奖励的 GRPO 来提升 MLLM 的感知敏感度。

方法详解

整体框架

OddGridBench + OddGrid-GRPO 两部分。Benchmark 部分生成参数化网格图像用于评估;训练部分用课程学习引导的 GRPO 配合距离感知奖励来提升模型。

关键设计

  1. OddGridBench 数据生成:
  2. 从 IconFont 和 Material Design Icons 收集 SVG 图标,分为人造物、自然、符号三类
  3. 网格布局:5-9 行列,每个图标 60-80px
  4. 四种差异维度:颜色(CIE-Lab \(\Delta E \in [5,20]\))、大小(85%-115%)、旋转(\(\pm 5°\)\(\pm 25°\))、位置(偏移 5%-12%)
  5. 支持单属性和多属性组合(2-Type, 3-Type, 4-Type),共 1400 测试 + 400 验证 + 30000 训练样本

  6. OddGrid-GRPO 课程学习:

  7. 对每个样本计算连续难度分数(网格大小、属性数量、扰动幅度综合决定)
  8. 分为 Easy(15K) / Medium(10K) / Hard(5K) 三个子集
  9. 三阶段渐进训练:先易后难,防止过早收敛
  10. 设计动机:直接在困难样本上训练 RL 不稳定,渐进式学习模拟人类感知发展

  11. 距离感知奖励:

  12. 标准 GRPO 用二元奖励(对/错),对定位任务不合适
  13. 设计基于欧几里得距离的连续奖励:\(r_d = \max(\exp(-d^2/2\sigma^2) - \beta, 0)\)
  14. \(\sigma\) 随网格大小自适应缩放,\(\beta\) 抑制远距离预测的奖励
  15. 总奖励 \(r_{overall} = (1-\omega)r_d + \omega r_f\),其中 \(r_f\) 是格式奖励

损失函数 / 训练策略

基于 GRPO 的强化学习,结合上述课程学习调度和距离感知奖励函数。

实验关键数据

主实验

模型 Color Size Rotation Position Total
Random 2.00 2.00 2.00 2.00 2.43
Qwen3-VL-32B 85.00 39.50 52.50 39.00 68.07
Gemini-2.5-Pro 82.50 9.50 26.00 6.50 49.29
GPT-5 56.50 9.50 21.00 5.00 28.93
Human 91.33 69.33 82.67 78.00 87.47

关键发现

观察 说明
颜色维度最易 多数模型在颜色差异上表现最好,但仍远低于人类
位置/大小最难 几乎所有模型在位置和大小感知上接近随机
人类vs最强MLLM 人类 87.47% vs Qwen3-VL-32B 68.07%,差距近20%
模型规模效应 同系列大模型比小模型好,但提升有限

关键发现

  • 颜色是 MLLM 最敏感的维度,大小和位置最弱,说明 MLLM 的视觉编码器在空间几何感知上存在根本性缺陷
  • OddGrid-GRPO 中课程学习和距离感知奖励都有明显贡献,去掉任一组件都会掉点
  • 差异幅度越大,准确率越高,呈单调递增趋势,符合人类感知的心理物理规律

亮点与洞察

  • 参数化控制的 benchmark 设计:类比心理物理学实验,可以精确控制每个感知维度的差异幅度,实现从"不可察觉"到"显著"的连续过渡,这是传统 benchmark 做不到的
  • 距离感知奖励:将空间邻近性编码到 RL 奖励中,比二元奖励提供更丰富的学习信号,这一设计可迁移到其他需要空间定位的 VLM 任务
  • 暴露了 MLLM 的根本短板:GPT-5 在位置感知上仅 5%,几乎是随机水平,说明当前视觉编码器在底层感知上严重不足

局限性 / 可改进方向

  • Benchmark 仅用合成 SVG 图标,未涉及自然图像中的细粒度差异检测
  • 仅评估了单图场景,实际应用中需要在复杂背景下检测差异
  • OddGrid-GRPO 的效果主要在该 benchmark 上验证,在其他细粒度视觉任务上的迁移性待考察
  • 训练数据量(30K)相对较小,扩大规模可能进一步提升

相关工作与启发

  • vs 传统 Odd-One-Out:传统方法针对视觉编码器设计,不适用于 MLLM 架构;本文首次为 MLLM 设计系统化的感知差异评估
  • vs GRPO (DeepSeek-V3):标准 GRPO 用二元奖励,本文扩展为连续的距离感知奖励,提供更细粒度的空间监督信号

补充分析

  • OddGrid-GRPO 的三阶段训练对应样本数 15K→15K(5K easy+10K medium)→15K(10K easy/medium+5K hard),总训练量固定为 30K
  • 网格图像中图标均为 SVG 格式,保证了缩放/旋转的分辨率无关性
  • 4-Type 组合任务中人类准确率高达 97.67%,而 GPT-5 仅 46.00%,差距超过 50%,是所有条件中差距最大的
  • 该 benchmark 的生成代码开源,可以自由定制新的差异维度(如纹理、透明度等)
  • 论文还发现标注 grid 标签后(LabeledAcc),模型准确率大幅提升,说明问题不完全在视觉感知,也在空间推理和索引理解上

评分

  • 新颖性: ⭐⭐⭐⭐ Benchmark 设计巧妙,暴露了重要问题
  • 实验充分度: ⭐⭐⭐⭐ 19个模型评估,分析深入
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表精美
  • 价值: ⭐⭐⭐⭐ 揭示了MLLM底层感知的系统性缺陷