KidGym: 2D Grid-Based Reasoning Benchmark for MLLMs¶
日期: 2026-03-02
arXiv: 2603.20209
代码: KidGym
领域: 多模态VLM / Benchmark
关键词: MLLM benchmark, cognitive evaluation, Wechsler Intelligence Scale, 2D grid, dynamic tasks
一句话总结¶
KidGym 受韦氏儿童智力量表启发,设计了 12 个 2D 网格交互任务(涵盖执行、感知推理、学习、记忆、规划五大能力),首次系统评估 MLLM 在动态交互场景中的认知能力。实验揭示:即使 o3/GPT-5 在简单任务接近满分,但在抽象推理、数量感知和复合能力任务上仍远落后于人类。
研究背景与动机¶
- 领域现状:现有 MLLM benchmark(MMBench、MMMU 等)主要评估静态任务(单次问答),无法测试模型的动态交互能力——即需要持续与环境互动、多步决策的场景。
- 现有痛点:(a) 大多 benchmark 只测单一能力(如推理或记忆),无法刻画不同能力的协同表现;(b) 固定数据集容易被记忆/泄漏,无法可靠评估真实能力;(c) 游戏类 benchmark(SmartPlay、MiniGrid)多面向 RL 或纯文本 LLM,不适合 MLLM
- 核心矛盾:MLLM 追求"类人通用智能",但缺乏一个借鉴认知心理学方法论、从多维度系统测量其"智力水平"的评估框架
- 切入角度:韦氏智力量表是评估儿童认知能力的黄金标准,将其五个核心维度(语言理解、视觉空间、流体推理、工作记忆、加工速度)适配为 MLLM 的五大能力指标
- 核心 idea:用儿童智力测试的理念设计 MLLM benchmark——2D 网格动态环境 + 12 个任务 × 3 难度 + 随机生成布局,从执行到规划全面体检
方法详解¶
整体框架¶
KidGym 是一个基于 Gym API 的 2D 网格环境(9×9 格,64px/格),每个任务中 agent 需要通过多步交互完成目标。每步给模型当前状态图像 + 可选动作列表,模型输出选择的动作。测试指标为 100 轮随机生成的成功率。
五大能力定义¶
- Execution(执行):将理解转化为正确动作,类似韦氏 PSI(加工速度)
- Perception Reasoning(感知推理):从视觉输入推断逻辑关系,对应 VSI+FRI
- Memory(记忆):跨多步保持上下文信息,对应 WMI
- Learning(学习):理解新规则并应用(可能与先验知识冲突),对应 VCI
- Planning(规划):多步策略规划,预判行动后果,对应 EF
12 个任务设计¶
单能力任务(6 个): - Classification(CL)→执行:把物品放入指定颜色篮子 - Selection(SE)→记忆:记住提示栏物品,然后从场景中选出 - Sorting(SO)→学习:按可能与常识矛盾的新规则排序 - Maze(MA)→规划:用钥匙开门找钻石,最少步数 - Filling(FI)→感知推理:找缺失的拼图块(真实动物图像) - Puzzle(PU)→感知推理:拼抽象几何图形
复合能力任务(6 个): - Placement(PL)→学习+感知推理:将物品放到"相反方向" - Counting(CO)→感知推理+规划:精确收集指定数量物品 - Decode Maze(DMA)→学习+规划:用提示栏的对应关系开锁 - Memory Maze(MMA)→记忆+规划:记住钻石位置后在宝箱中找回 - Memory Filling(MFI)→记忆+感知推理:记住目标后补全 - Memory Decode(MDE)→记忆+学习:记住关联规则后选择
关键设计机制¶
- 随机生成:每局随机化场景、物品位置、种类,理论上可生成 >\(10^{14}\) 种状态,杜绝数据泄漏
- 高层动作:不要求原子操作(前进一步/转向),直接"拾取苹果"/"开门",减少操作复杂度
- 背包+提示栏:解决 MLLM 上下文一致性差的问题,关键信息可读可见
- 3 级难度:每任务 L1→L2→L3 递增(如物品数从 1→2→3),验证能力边界
实验关键数据¶
主实验(Zero-shot 成功率)¶
| 模型 | CL-L1 | SE-L1 | PU-L1 | CO-L1 | MA-L3 | MMA-L3 | 整体印象 |
|---|---|---|---|---|---|---|---|
| o3 | 1.00 | 1.00 | 0.26 | 0.30 | 0.27 | 0.05 | 简单任务强,复合/抽象弱 |
| GPT-5 | 1.00 | 1.00 | 0.30 | 0.36 | 0.11 | 0.01 | 学习能力突出(SO≈1.0) |
| Gemini-2.5-Pro | 0.99 | 1.00 | 0.19 | 0.72 | 0.03 | 0.00 | 数量感知最强 |
| GPT-4o | 0.46 | 1.00 | 0.26 | 0.00 | 0.00 | 0.00 | L3几乎全面崩溃 |
| QwenVL-2.5(72B) | 0.48 | 0.98 | 0.29 | 0.00 | 0.03 | 0.00 | 开源最佳但远逊闭源 |
| Human | 0.98 | 1.00 | 1.00 | 1.00 | 0.97 | 1.00 | 全面接近满分 |
能力维度评分(满分 100)¶
| 模型 | Execution | Memory | Learning | Planning | Perception Reasoning |
|---|---|---|---|---|---|
| o3 | 95 | 67 | 80 | 30 | 43 |
| GPT-5 | 95 | 67 | 98 | 30 | 46 |
| Gemini-2.5-Pro | 100 | 70 | 79 | 31 | 48 |
| QwenVL-2.5(72B) | 19 | 47 | 41 | 9 | 15 |
| 模型平均 | 38 | 40 | 57 | 10 | 20 |
| Human | 96 | 99 | 99 | 97 | 100 |
关键发现¶
- 抽象推理是最大短板:PU(拼抽象图)最高仅 0.30(GPT-5),而 FI(拼真实图)最高 0.83(o3)——MLLM 严重依赖语义线索
- 数量不敏感:CO 任务人类轻松满分,最强模型(Gemini-2.5-Pro)L1 仅 0.72;模型常把 2-3 个物品的小堆误判为 1 个
- 复合任务急剧退化:MMA 对比 MA、MFI 对比 FI,增加记忆需求后成功率大幅下降
- 规划和感知推理是全面弱项:所有模型平均 Planning 仅 10 分、Perception Reasoning 仅 20 分
- CoT 对执行类任务有显著提升,但 ICL 在记忆/学习任务上可能适得其反(过度拟合示例)
亮点与洞察¶
- 认知科学×AI 评估的优雅结合:不是简单搬运韦氏测试,而是与儿童脑科学专家合作,将每个韦氏维度适配为 MLLM 可测的能力指标,设计有理论依据
- 程序化生成数据:每局随机布局(>\(10^{14}\) 种),从根本上解决了 benchmark 污染和记忆问题
- 暴露了 MLLM 被忽视的弱点:数量感知弱、抽象推理差、多能力协同困难——这些在静态 QA benchmark 中不易发现
局限性 / 可改进方向¶
- 当前仅 12 个任务,覆盖面还有限(如缺少创造力、因果推理等维度)
- 2D 网格环境相对简单,无法测试 3D 空间理解或物理推理
- 分辨率较低(576×576)可能影响部分模型(提高到 96px/格后 CO 任务部分模型显著改善)
- 每个任务最多测 2 种能力,真实场景中能力交互更复杂
相关工作与启发¶
- vs ARC-AGI-2: ARC 聚焦抽象推理(静态),KidGym 在 PU 任务上做了类似测试但加入了动态交互
- vs SmartPlay: SmartPlay 用经典游戏(Minecraft)做文本评估,KidGym 面向 MLLM 提供视觉化 2D 环境
- vs MiniGrid: MiniGrid 面向 RL agent,KidGym 适配了 MLLM 的高层动作 + 多模态输入
评分¶
- 新颖性: ⭐⭐⭐⭐ 韦氏量表驱动的 MLLM benchmark 是新视角,但 2D 网格游戏本身不算新
- 实验充分度: ⭐⭐⭐⭐⭐ 9 个模型 × 12 任务 × 3 难度 × 3 范式(zero-shot/CoT/ICL) + 人类基线
- 写作质量: ⭐⭐⭐⭐ 结构清晰,认知科学背景交代充分
- 价值: ⭐⭐⭐⭐ 揭示了 MLLM 在动态交互中的认知缺陷,对 MLLM 改进方向有指引