KidGym: 2D Grid-Based Reasoning Benchmark for MLLMs¶

日期: 2026-03-02
arXiv: 2603.20209
代码: KidGym
领域: 多模态VLM / Benchmark
关键词: MLLM benchmark, cognitive evaluation, Wechsler Intelligence Scale, 2D grid, dynamic tasks

一句话总结¶

KidGym 受韦氏儿童智力量表启发，设计了 12 个 2D 网格交互任务（涵盖执行、感知推理、学习、记忆、规划五大能力），首次系统评估 MLLM 在动态交互场景中的认知能力。实验揭示：即使 o3/GPT-5 在简单任务接近满分，但在抽象推理、数量感知和复合能力任务上仍远落后于人类。

研究背景与动机¶

领域现状：现有 MLLM benchmark（MMBench、MMMU 等）主要评估静态任务（单次问答），无法测试模型的动态交互能力——即需要持续与环境互动、多步决策的场景。
现有痛点：(a) 大多 benchmark 只测单一能力（如推理或记忆），无法刻画不同能力的协同表现；(b) 固定数据集容易被记忆/泄漏，无法可靠评估真实能力；(c) 游戏类 benchmark（SmartPlay、MiniGrid）多面向 RL 或纯文本 LLM，不适合 MLLM
核心矛盾：MLLM 追求"类人通用智能"，但缺乏一个借鉴认知心理学方法论、从多维度系统测量其"智力水平"的评估框架
切入角度：韦氏智力量表是评估儿童认知能力的黄金标准，将其五个核心维度（语言理解、视觉空间、流体推理、工作记忆、加工速度）适配为 MLLM 的五大能力指标
核心 idea：用儿童智力测试的理念设计 MLLM benchmark——2D 网格动态环境 + 12 个任务 × 3 难度 + 随机生成布局，从执行到规划全面体检

方法详解¶

整体框架¶

KidGym 是一个基于 Gym API 的 2D 网格环境（9×9 格，64px/格），每个任务中 agent 需要通过多步交互完成目标。每步给模型当前状态图像 + 可选动作列表，模型输出选择的动作。测试指标为 100 轮随机生成的成功率。

五大能力定义¶

Execution（执行）：将理解转化为正确动作，类似韦氏 PSI（加工速度）
Perception Reasoning（感知推理）：从视觉输入推断逻辑关系，对应 VSI+FRI
Memory（记忆）：跨多步保持上下文信息，对应 WMI
Learning（学习）：理解新规则并应用（可能与先验知识冲突），对应 VCI
Planning（规划）：多步策略规划，预判行动后果，对应 EF

12 个任务设计¶

单能力任务（6 个）： - Classification（CL）→执行：把物品放入指定颜色篮子 - Selection（SE）→记忆：记住提示栏物品，然后从场景中选出 - Sorting（SO）→学习：按可能与常识矛盾的新规则排序 - Maze（MA）→规划：用钥匙开门找钻石，最少步数 - Filling（FI）→感知推理：找缺失的拼图块（真实动物图像） - Puzzle（PU）→感知推理：拼抽象几何图形

复合能力任务（6 个）： - Placement（PL）→学习+感知推理：将物品放到"相反方向" - Counting（CO）→感知推理+规划：精确收集指定数量物品 - Decode Maze（DMA）→学习+规划：用提示栏的对应关系开锁 - Memory Maze（MMA）→记忆+规划：记住钻石位置后在宝箱中找回 - Memory Filling（MFI）→记忆+感知推理：记住目标后补全 - Memory Decode（MDE）→记忆+学习：记住关联规则后选择

关键设计机制¶

随机生成：每局随机化场景、物品位置、种类，理论上可生成 >\(10^{14}\) 种状态，杜绝数据泄漏
高层动作：不要求原子操作（前进一步/转向），直接"拾取苹果"/"开门"，减少操作复杂度
背包+提示栏：解决 MLLM 上下文一致性差的问题，关键信息可读可见
3 级难度：每任务 L1→L2→L3 递增（如物品数从 1→2→3），验证能力边界

实验关键数据¶

主实验（Zero-shot 成功率）¶

模型	CL-L1	SE-L1	PU-L1	CO-L1	MA-L3	MMA-L3	整体印象
o3	1.00	1.00	0.26	0.30	0.27	0.05	简单任务强，复合/抽象弱
GPT-5	1.00	1.00	0.30	0.36	0.11	0.01	学习能力突出(SO≈1.0)
Gemini-2.5-Pro	0.99	1.00	0.19	0.72	0.03	0.00	数量感知最强
GPT-4o	0.46	1.00	0.26	0.00	0.00	0.00	L3几乎全面崩溃
QwenVL-2.5(72B)	0.48	0.98	0.29	0.00	0.03	0.00	开源最佳但远逊闭源
Human	0.98	1.00	1.00	1.00	0.97	1.00	全面接近满分

能力维度评分（满分 100）¶

模型	Execution	Memory	Learning	Planning	Perception Reasoning
o3	95	67	80	30	43
GPT-5	95	67	98	30	46
Gemini-2.5-Pro	100	70	79	31	48
QwenVL-2.5(72B)	19	47	41	9	15
模型平均	38	40	57	10	20
Human	96	99	99	97	100

关键发现¶

抽象推理是最大短板：PU(拼抽象图)最高仅 0.30（GPT-5），而 FI(拼真实图)最高 0.83（o3）——MLLM 严重依赖语义线索
数量不敏感：CO 任务人类轻松满分，最强模型（Gemini-2.5-Pro）L1 仅 0.72；模型常把 2-3 个物品的小堆误判为 1 个
复合任务急剧退化：MMA 对比 MA、MFI 对比 FI，增加记忆需求后成功率大幅下降
规划和感知推理是全面弱项：所有模型平均 Planning 仅 10 分、Perception Reasoning 仅 20 分
CoT 对执行类任务有显著提升，但 ICL 在记忆/学习任务上可能适得其反（过度拟合示例）

亮点与洞察¶

认知科学×AI 评估的优雅结合：不是简单搬运韦氏测试，而是与儿童脑科学专家合作，将每个韦氏维度适配为 MLLM 可测的能力指标，设计有理论依据
程序化生成数据：每局随机布局（>\(10^{14}\) 种），从根本上解决了 benchmark 污染和记忆问题
暴露了 MLLM 被忽视的弱点：数量感知弱、抽象推理差、多能力协同困难——这些在静态 QA benchmark 中不易发现

局限性 / 可改进方向¶

当前仅 12 个任务，覆盖面还有限（如缺少创造力、因果推理等维度）
2D 网格环境相对简单，无法测试 3D 空间理解或物理推理
分辨率较低(576×576)可能影响部分模型（提高到 96px/格后 CO 任务部分模型显著改善）
每个任务最多测 2 种能力，真实场景中能力交互更复杂

评分¶

新颖性: ⭐⭐⭐⭐ 韦氏量表驱动的 MLLM benchmark 是新视角，但 2D 网格游戏本身不算新
实验充分度: ⭐⭐⭐⭐⭐ 9 个模型 × 12 任务 × 3 难度 × 3 范式(zero-shot/CoT/ICL) + 人类基线
写作质量: ⭐⭐⭐⭐ 结构清晰，认知科学背景交代充分
价值: ⭐⭐⭐⭐ 揭示了 MLLM 在动态交互中的认知缺陷，对 MLLM 改进方向有指引