跳转至

KidGym: 2D Grid-Based Reasoning Benchmark for MLLMs

日期: 2026-03-02
arXiv: 2603.20209
代码: KidGym
领域: 多模态VLM / Benchmark
关键词: MLLM benchmark, cognitive evaluation, Wechsler Intelligence Scale, 2D grid, dynamic tasks

一句话总结

KidGym 受韦氏儿童智力量表启发,设计了 12 个 2D 网格交互任务(涵盖执行、感知推理、学习、记忆、规划五大能力),首次系统评估 MLLM 在动态交互场景中的认知能力。实验揭示:即使 o3/GPT-5 在简单任务接近满分,但在抽象推理、数量感知和复合能力任务上仍远落后于人类。

研究背景与动机

  1. 领域现状:现有 MLLM benchmark(MMBench、MMMU 等)主要评估静态任务(单次问答),无法测试模型的动态交互能力——即需要持续与环境互动、多步决策的场景。
  2. 现有痛点:(a) 大多 benchmark 只测单一能力(如推理或记忆),无法刻画不同能力的协同表现;(b) 固定数据集容易被记忆/泄漏,无法可靠评估真实能力;(c) 游戏类 benchmark(SmartPlay、MiniGrid)多面向 RL 或纯文本 LLM,不适合 MLLM
  3. 核心矛盾:MLLM 追求"类人通用智能",但缺乏一个借鉴认知心理学方法论、从多维度系统测量其"智力水平"的评估框架
  4. 切入角度:韦氏智力量表是评估儿童认知能力的黄金标准,将其五个核心维度(语言理解、视觉空间、流体推理、工作记忆、加工速度)适配为 MLLM 的五大能力指标
  5. 核心 idea用儿童智力测试的理念设计 MLLM benchmark——2D 网格动态环境 + 12 个任务 × 3 难度 + 随机生成布局,从执行到规划全面体检

方法详解

整体框架

KidGym 是一个基于 Gym API 的 2D 网格环境(9×9 格,64px/格),每个任务中 agent 需要通过多步交互完成目标。每步给模型当前状态图像 + 可选动作列表,模型输出选择的动作。测试指标为 100 轮随机生成的成功率。

五大能力定义

  1. Execution(执行):将理解转化为正确动作,类似韦氏 PSI(加工速度)
  2. Perception Reasoning(感知推理):从视觉输入推断逻辑关系,对应 VSI+FRI
  3. Memory(记忆):跨多步保持上下文信息,对应 WMI
  4. Learning(学习):理解新规则并应用(可能与先验知识冲突),对应 VCI
  5. Planning(规划):多步策略规划,预判行动后果,对应 EF

12 个任务设计

单能力任务(6 个): - Classification(CL)→执行:把物品放入指定颜色篮子 - Selection(SE)→记忆:记住提示栏物品,然后从场景中选出 - Sorting(SO)→学习:按可能与常识矛盾的新规则排序 - Maze(MA)→规划:用钥匙开门找钻石,最少步数 - Filling(FI)→感知推理:找缺失的拼图块(真实动物图像) - Puzzle(PU)→感知推理:拼抽象几何图形

复合能力任务(6 个): - Placement(PL)→学习+感知推理:将物品放到"相反方向" - Counting(CO)→感知推理+规划:精确收集指定数量物品 - Decode Maze(DMA)→学习+规划:用提示栏的对应关系开锁 - Memory Maze(MMA)→记忆+规划:记住钻石位置后在宝箱中找回 - Memory Filling(MFI)→记忆+感知推理:记住目标后补全 - Memory Decode(MDE)→记忆+学习:记住关联规则后选择

关键设计机制

  • 随机生成:每局随机化场景、物品位置、种类,理论上可生成 >\(10^{14}\) 种状态,杜绝数据泄漏
  • 高层动作:不要求原子操作(前进一步/转向),直接"拾取苹果"/"开门",减少操作复杂度
  • 背包+提示栏:解决 MLLM 上下文一致性差的问题,关键信息可读可见
  • 3 级难度:每任务 L1→L2→L3 递增(如物品数从 1→2→3),验证能力边界

实验关键数据

主实验(Zero-shot 成功率)

模型 CL-L1 SE-L1 PU-L1 CO-L1 MA-L3 MMA-L3 整体印象
o3 1.00 1.00 0.26 0.30 0.27 0.05 简单任务强,复合/抽象弱
GPT-5 1.00 1.00 0.30 0.36 0.11 0.01 学习能力突出(SO≈1.0)
Gemini-2.5-Pro 0.99 1.00 0.19 0.72 0.03 0.00 数量感知最强
GPT-4o 0.46 1.00 0.26 0.00 0.00 0.00 L3几乎全面崩溃
QwenVL-2.5(72B) 0.48 0.98 0.29 0.00 0.03 0.00 开源最佳但远逊闭源
Human 0.98 1.00 1.00 1.00 0.97 1.00 全面接近满分

能力维度评分(满分 100)

模型 Execution Memory Learning Planning Perception Reasoning
o3 95 67 80 30 43
GPT-5 95 67 98 30 46
Gemini-2.5-Pro 100 70 79 31 48
QwenVL-2.5(72B) 19 47 41 9 15
模型平均 38 40 57 10 20
Human 96 99 99 97 100

关键发现

  • 抽象推理是最大短板:PU(拼抽象图)最高仅 0.30(GPT-5),而 FI(拼真实图)最高 0.83(o3)——MLLM 严重依赖语义线索
  • 数量不敏感:CO 任务人类轻松满分,最强模型(Gemini-2.5-Pro)L1 仅 0.72;模型常把 2-3 个物品的小堆误判为 1 个
  • 复合任务急剧退化:MMA 对比 MA、MFI 对比 FI,增加记忆需求后成功率大幅下降
  • 规划和感知推理是全面弱项:所有模型平均 Planning 仅 10 分、Perception Reasoning 仅 20 分
  • CoT 对执行类任务有显著提升,但 ICL 在记忆/学习任务上可能适得其反(过度拟合示例)

亮点与洞察

  • 认知科学×AI 评估的优雅结合:不是简单搬运韦氏测试,而是与儿童脑科学专家合作,将每个韦氏维度适配为 MLLM 可测的能力指标,设计有理论依据
  • 程序化生成数据:每局随机布局(>\(10^{14}\) 种),从根本上解决了 benchmark 污染和记忆问题
  • 暴露了 MLLM 被忽视的弱点:数量感知弱、抽象推理差、多能力协同困难——这些在静态 QA benchmark 中不易发现

局限性 / 可改进方向

  • 当前仅 12 个任务,覆盖面还有限(如缺少创造力、因果推理等维度)
  • 2D 网格环境相对简单,无法测试 3D 空间理解或物理推理
  • 分辨率较低(576×576)可能影响部分模型(提高到 96px/格后 CO 任务部分模型显著改善)
  • 每个任务最多测 2 种能力,真实场景中能力交互更复杂

相关工作与启发

  • vs ARC-AGI-2: ARC 聚焦抽象推理(静态),KidGym 在 PU 任务上做了类似测试但加入了动态交互
  • vs SmartPlay: SmartPlay 用经典游戏(Minecraft)做文本评估,KidGym 面向 MLLM 提供视觉化 2D 环境
  • vs MiniGrid: MiniGrid 面向 RL agent,KidGym 适配了 MLLM 的高层动作 + 多模态输入

评分

  • 新颖性: ⭐⭐⭐⭐ 韦氏量表驱动的 MLLM benchmark 是新视角,但 2D 网格游戏本身不算新
  • 实验充分度: ⭐⭐⭐⭐⭐ 9 个模型 × 12 任务 × 3 难度 × 3 范式(zero-shot/CoT/ICL) + 人类基线
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,认知科学背景交代充分
  • 价值: ⭐⭐⭐⭐ 揭示了 MLLM 在动态交互中的认知缺陷,对 MLLM 改进方向有指引