OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in MLLMs¶
日期: 2026-03-10
arXiv: 2603.09326
代码: Project Page
领域: 多模态评测 / 感知基准
关键词: visual discrepancy, odd-one-out, low-level perception, GRPO, curriculum learning
一句话总结¶
提出 OddGridBench(1400+ 样本)系统评估 MLLM 的细粒度视觉差异感知能力,发现即使 GPT-5/Gemini 也明显低于人类;进一步提出 OddGrid-GRPO,把 Qwen3-VL-2B 从 17.1% 提升到 82.6%。
研究背景与动机¶
- 现状: MLLM 在高层语义任务(VQA、图表推理)表现很好,但“底层感知能力”很少被严格测试。
- 关键缺口: 人类视觉对细微差异(颜色、尺寸、旋转、位置)极敏感,这是高层推理基础;模型若在底层不可靠,高层能力也会受限。
- 核心思路: 用参数可控的 odd-one-out 任务隔离语义因素,只测视觉差异敏感度。
基准设计¶
OddGridBench¶
- 任务:给定网格图,找出与其他元素不同的那个格子
- 单属性差异(4类):
- 颜色:\(\Delta E\in[5,20]\)
- 大小:\(\pm 5\%-15\%\)
- 旋转:\(\pm 5^\circ-25^\circ\)
- 位置:偏移 \(5\%-12\%\)
- 复合差异(3类):2-type/3-type/4-type
- 规模:测试 1400、验证 400、训练 30000
- 图标来源:IconFont + Material Design Icons(SVG,可控生成)
评价价值¶
- 可量化不同差异强度下模型性能曲线
- 可横向比较开源/闭源模型在低层感知上的真实差距
OddGrid-GRPO:如何提升模型感知¶
1. 课程学习¶
按难度分阶段训练:Easy -> Easy+Medium -> Easy+Medium+Hard。难度由网格尺寸、差异类型和扰动幅度联合决定。
2. 距离感知奖励¶
标准 RL 的“对/错二值奖励”太粗糙,本文改为与预测位置距离相关的连续奖励:
\[
r_d=\max\left(\exp\left(-\frac{d^2}{2\sigma^2}\right)-\beta,0\right)
\]
即“猜得更近就给更多分”,更适合定位类任务。
实验关键数据¶
MLLM 感知能力(准确率 %)¶
| 模型 | Color | Size | Rotation | Position | Total |
|---|---|---|---|---|---|
| GPT-5 | 56.5 | 9.5 | 21.0 | 5.0 | 28.9 |
| Gemini 2.5 Pro | 82.5 | 9.5 | 26.0 | 6.5 | 49.3 |
| Qwen3-VL-32B | 85.0 | 39.5 | 52.5 | 39.0 | 68.1 |
| Human | 91.3 | 69.3 | 82.7 | 78.0 | 87.5 |
OddGrid-GRPO 训练效果(Qwen3-VL-2B)¶
| 方法 | Color | Size | Rotation | Position | Total |
|---|---|---|---|---|---|
| Baseline | 23.0 | 5.0 | 12.5 | 7.0 | 17.1 |
| GRPO | 88.5 | 44.0 | 67.5 | 41.5 | 70.9 |
| OddGrid-GRPO | 89.5 | 64.5 | 80.5 | 64.5 | 82.6 |
关键发现¶
- 当前最强 MLLM 仍远低于人类(68.1 vs 87.5)
- 最薄弱维度是 Size/Position(部分模型接近随机)
- 经针对性 RL 后,2B 模型可超过未经训练的大模型
- 说明问题主要在训练目标,不只是参数规模
局限性¶
- 合成图标场景与真实工业场景仍有 domain gap
- 目前仅覆盖 2D 网格,不含 3D/视频时序差异
- RL 训练成本与稳定性分析可再展开
评分¶
- 新颖性: ⭐⭐⭐⭐⭐(把“低层感知盲区”系统性量化)
- 实验充分度: ⭐⭐⭐⭐⭐(19 模型 + 人类对照 + 提升方案)
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐(对评测范式和训练目标都很有启发)