OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models¶

会议: CVPR 2026
arXiv: 2603.09326
代码: https://wwwtttjjj.github.io/OddGridBench/
领域: 多模态VLM
关键词: 视觉差异感知, Benchmark, GRPO, 课程学习, 细粒度感知

一句话总结¶

提出 OddGridBench 评估 MLLM 的细粒度视觉差异感知能力（找出网格中与其他元素在颜色/大小/旋转/位置上不同的那个），发现所有 MLLM 远低于人类水平，进而提出 OddGrid-GRPO（课程学习 + 距离感知奖励）显著提升模型的视觉辨别力。

领域现状：MLLM 在高层语义理解（图像描述、VQA、数学推理等）上表现出色，但对底层视觉感知的评估和研究不足。
现有痛点：现有 benchmark 主要关注高层语义推理，忽视了人类视觉系统中非常基础的能力——细粒度视觉差异感知（Just Noticeable Difference / Pop-out Effect）。这种底层感知是空间推理、物体理解的前提。
核心矛盾：没有系统化、可控的 benchmark 来量化评估 MLLM 在不同感知维度（颜色、大小、旋转、位置）上的敏感度，也缺乏针对性的训练方法来弥补这一短板。
本文要解决什么：(1) 构建可控的细粒度视觉差异感知 benchmark；(2) 揭示 MLLM 在此任务上的系统性失败模式；(3) 提出训练方法提升感知能力。
切入角度：借鉴认知心理学的 Odd-One-Out 范式，构建参数化控制的网格图像，精确量化差异程度。
核心idea：用参数化的网格图像（单元素在颜色/大小/旋转/位置上有细微差异）构建 benchmark，结合课程学习和距离感知奖励的 GRPO 来提升 MLLM 的感知敏感度。

OddGridBench + OddGrid-GRPO 两部分。Benchmark 部分生成参数化网格图像用于评估；训练部分用课程学习引导的 GRPO 配合距离感知奖励来提升模型。

OddGridBench 数据生成:
从 IconFont 和 Material Design Icons 收集 SVG 图标，分为人造物、自然、符号三类
网格布局：5-9 行列，每个图标 60-80px
四种差异维度：颜色（CIE-Lab \(\Delta E \in [5,20]\)）、大小（85%-115%）、旋转（\(\pm 5°\) 到 \(\pm 25°\)）、位置（偏移 5%-12%）
支持单属性和多属性组合（2-Type, 3-Type, 4-Type），共 1400 测试 + 400 验证 + 30000 训练样本
OddGrid-GRPO 课程学习:
对每个样本计算连续难度分数（网格大小、属性数量、扰动幅度综合决定）
分为 Easy(15K) / Medium(10K) / Hard(5K) 三个子集
三阶段渐进训练：先易后难，防止过早收敛
设计动机：直接在困难样本上训练 RL 不稳定，渐进式学习模拟人类感知发展
距离感知奖励:
标准 GRPO 用二元奖励（对/错），对定位任务不合适
设计基于欧几里得距离的连续奖励：\(r_d = \max(\exp(-d^2/2\sigma^2) - \beta, 0)\)
\(\sigma\) 随网格大小自适应缩放，\(\beta\) 抑制远距离预测的奖励
总奖励 \(r_{overall} = (1-\omega)r_d + \omega r_f\)，其中 \(r_f\) 是格式奖励

基于 GRPO 的强化学习，结合上述课程学习调度和距离感知奖励函数。

模型	Color	Size	Rotation	Position	Total
Random	2.00	2.00	2.00	2.00	2.43
Qwen3-VL-32B	85.00	39.50	52.50	39.00	68.07
Gemini-2.5-Pro	82.50	9.50	26.00	6.50	49.29
GPT-5	56.50	9.50	21.00	5.00	28.93
Human	91.33	69.33	82.67	78.00	87.47

参数化控制的 benchmark 设计：类比心理物理学实验，可以精确控制每个感知维度的差异幅度，实现从"不可察觉"到"显著"的连续过渡，这是传统 benchmark 做不到的
距离感知奖励：将空间邻近性编码到 RL 奖励中，比二元奖励提供更丰富的学习信号，这一设计可迁移到其他需要空间定位的 VLM 任务
暴露了 MLLM 的根本短板：GPT-5 在位置感知上仅 5%，几乎是随机水平，说明当前视觉编码器在底层感知上严重不足

OddGrid-GRPO 的三阶段训练对应样本数 15K→15K(5K easy+10K medium)→15K(10K easy/medium+5K hard)，总训练量固定为 30K
网格图像中图标均为 SVG 格式，保证了缩放/旋转的分辨率无关性
4-Type 组合任务中人类准确率高达 97.67%，而 GPT-5 仅 46.00%，差距超过 50%，是所有条件中差距最大的
该 benchmark 的生成代码开源，可以自由定制新的差异维度（如纹理、透明度等）
论文还发现标注 grid 标签后（LabeledAcc），模型准确率大幅提升，说明问题不完全在视觉感知，也在空间推理和索引理解上