OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models¶
会议: CVPR 2026
arXiv: 2603.09326
代码: https://wwwtttjjj.github.io/OddGridBench/
领域: 多模态VLM
关键词: 视觉差异感知, Benchmark, GRPO, 课程学习, 细粒度感知
一句话总结¶
提出 OddGridBench 评估 MLLM 的细粒度视觉差异感知能力(找出网格中与其他元素在颜色/大小/旋转/位置上不同的那个),发现所有 MLLM 远低于人类水平,进而提出 OddGrid-GRPO(课程学习 + 距离感知奖励)显著提升模型的视觉辨别力。
研究背景与动机¶
- 领域现状:MLLM 在高层语义理解(图像描述、VQA、数学推理等)上表现出色,但对底层视觉感知的评估和研究不足。
- 现有痛点:现有 benchmark 主要关注高层语义推理,忽视了人类视觉系统中非常基础的能力——细粒度视觉差异感知(Just Noticeable Difference / Pop-out Effect)。这种底层感知是空间推理、物体理解的前提。
- 核心矛盾:没有系统化、可控的 benchmark 来量化评估 MLLM 在不同感知维度(颜色、大小、旋转、位置)上的敏感度,也缺乏针对性的训练方法来弥补这一短板。
- 本文要解决什么:(1) 构建可控的细粒度视觉差异感知 benchmark;(2) 揭示 MLLM 在此任务上的系统性失败模式;(3) 提出训练方法提升感知能力。
- 切入角度:借鉴认知心理学的 Odd-One-Out 范式,构建参数化控制的网格图像,精确量化差异程度。
- 核心idea:用参数化的网格图像(单元素在颜色/大小/旋转/位置上有细微差异)构建 benchmark,结合课程学习和距离感知奖励的 GRPO 来提升 MLLM 的感知敏感度。
方法详解¶
整体框架¶
OddGridBench + OddGrid-GRPO 两部分。Benchmark 部分生成参数化网格图像用于评估;训练部分用课程学习引导的 GRPO 配合距离感知奖励来提升模型。
关键设计¶
- OddGridBench 数据生成:
- 从 IconFont 和 Material Design Icons 收集 SVG 图标,分为人造物、自然、符号三类
- 网格布局:5-9 行列,每个图标 60-80px
- 四种差异维度:颜色(CIE-Lab \(\Delta E \in [5,20]\))、大小(85%-115%)、旋转(\(\pm 5°\) 到 \(\pm 25°\))、位置(偏移 5%-12%)
-
支持单属性和多属性组合(2-Type, 3-Type, 4-Type),共 1400 测试 + 400 验证 + 30000 训练样本
-
OddGrid-GRPO 课程学习:
- 对每个样本计算连续难度分数(网格大小、属性数量、扰动幅度综合决定)
- 分为 Easy(15K) / Medium(10K) / Hard(5K) 三个子集
- 三阶段渐进训练:先易后难,防止过早收敛
-
设计动机:直接在困难样本上训练 RL 不稳定,渐进式学习模拟人类感知发展
-
距离感知奖励:
- 标准 GRPO 用二元奖励(对/错),对定位任务不合适
- 设计基于欧几里得距离的连续奖励:\(r_d = \max(\exp(-d^2/2\sigma^2) - \beta, 0)\)
- \(\sigma\) 随网格大小自适应缩放,\(\beta\) 抑制远距离预测的奖励
- 总奖励 \(r_{overall} = (1-\omega)r_d + \omega r_f\),其中 \(r_f\) 是格式奖励
损失函数 / 训练策略¶
基于 GRPO 的强化学习,结合上述课程学习调度和距离感知奖励函数。
实验关键数据¶
主实验¶
| 模型 | Color | Size | Rotation | Position | Total |
|---|---|---|---|---|---|
| Random | 2.00 | 2.00 | 2.00 | 2.00 | 2.43 |
| Qwen3-VL-32B | 85.00 | 39.50 | 52.50 | 39.00 | 68.07 |
| Gemini-2.5-Pro | 82.50 | 9.50 | 26.00 | 6.50 | 49.29 |
| GPT-5 | 56.50 | 9.50 | 21.00 | 5.00 | 28.93 |
| Human | 91.33 | 69.33 | 82.67 | 78.00 | 87.47 |
关键发现¶
| 观察 | 说明 |
|---|---|
| 颜色维度最易 | 多数模型在颜色差异上表现最好,但仍远低于人类 |
| 位置/大小最难 | 几乎所有模型在位置和大小感知上接近随机 |
| 人类vs最强MLLM | 人类 87.47% vs Qwen3-VL-32B 68.07%,差距近20% |
| 模型规模效应 | 同系列大模型比小模型好,但提升有限 |
关键发现¶
- 颜色是 MLLM 最敏感的维度,大小和位置最弱,说明 MLLM 的视觉编码器在空间几何感知上存在根本性缺陷
- OddGrid-GRPO 中课程学习和距离感知奖励都有明显贡献,去掉任一组件都会掉点
- 差异幅度越大,准确率越高,呈单调递增趋势,符合人类感知的心理物理规律
亮点与洞察¶
- 参数化控制的 benchmark 设计:类比心理物理学实验,可以精确控制每个感知维度的差异幅度,实现从"不可察觉"到"显著"的连续过渡,这是传统 benchmark 做不到的
- 距离感知奖励:将空间邻近性编码到 RL 奖励中,比二元奖励提供更丰富的学习信号,这一设计可迁移到其他需要空间定位的 VLM 任务
- 暴露了 MLLM 的根本短板:GPT-5 在位置感知上仅 5%,几乎是随机水平,说明当前视觉编码器在底层感知上严重不足
局限性 / 可改进方向¶
- Benchmark 仅用合成 SVG 图标,未涉及自然图像中的细粒度差异检测
- 仅评估了单图场景,实际应用中需要在复杂背景下检测差异
- OddGrid-GRPO 的效果主要在该 benchmark 上验证,在其他细粒度视觉任务上的迁移性待考察
- 训练数据量(30K)相对较小,扩大规模可能进一步提升
相关工作与启发¶
- vs 传统 Odd-One-Out:传统方法针对视觉编码器设计,不适用于 MLLM 架构;本文首次为 MLLM 设计系统化的感知差异评估
- vs GRPO (DeepSeek-V3):标准 GRPO 用二元奖励,本文扩展为连续的距离感知奖励,提供更细粒度的空间监督信号
补充分析¶
- OddGrid-GRPO 的三阶段训练对应样本数 15K→15K(5K easy+10K medium)→15K(10K easy/medium+5K hard),总训练量固定为 30K
- 网格图像中图标均为 SVG 格式,保证了缩放/旋转的分辨率无关性
- 4-Type 组合任务中人类准确率高达 97.67%,而 GPT-5 仅 46.00%,差距超过 50%,是所有条件中差距最大的
- 该 benchmark 的生成代码开源,可以自由定制新的差异维度(如纹理、透明度等)
- 论文还发现标注 grid 标签后(LabeledAcc),模型准确率大幅提升,说明问题不完全在视觉感知,也在空间推理和索引理解上
评分¶
- 新颖性: ⭐⭐⭐⭐ Benchmark 设计巧妙,暴露了重要问题
- 实验充分度: ⭐⭐⭐⭐ 19个模型评估,分析深入
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰,图表精美
- 价值: ⭐⭐⭐⭐ 揭示了MLLM底层感知的系统性缺陷