Core Knowledge Deficits in Multi-Modal Language Models¶

会议: ICML 2025
arXiv: 2410.10855
代码: 无
领域: 多模态VLM
关键词: 核心知识, 多模态大语言模型评测, 认知科学, shortcut learning, benchmark

一句话总结¶

提出 CoreCognition 基准（12种核心认知能力、1503题），大规模评测230个MLLM后发现：模型在基础认知能力上系统性落后于人类，且随规模增大并未改善，而是更依赖捷径学习而非真正理解。

研究背景与动机¶

当前MLLM在高层次推理（图表理解、数学几何、动作识别等）上已接近甚至超越人类，但在对人类来说简单直觉的低层次任务上却频频失败——如计数、视角转换、空间推理、时序推理和组合推理。这一现象呼应了经典的 Moravec's Paradox：对机器最难的恰是人类最容易的。

作者提出假设：这些缺陷源于MLLM缺乏核心知识（core knowledge）——人类从婴幼儿期就先天具备的基础认知能力。核心知识的思想根植于柏拉图的先验知识观、康德的先天直觉形式论，以及 Piaget 和 Spelke 等发展心理学家的实证研究。

现有MLLM基准多聚焦于高层推理（MathVerse、ScienceQA等），缺乏针对这些底层核心认知能力的系统评估。本文因此构建了首个大规模核心知识基准，用于探究MLLMs是否具备、如何表征和使用核心知识。

方法详解¶

整体框架¶

本文的工作包含三大部分：(1) 构建认知分类体系与CoreCognition基准；(2) 大规模模型评测（230个模型 × 11种prompt = 2530个数据点）；(3) 提出Concept Hacking方法进行受控实验，区分真正理解vs捷径学习。

关键设计¶

1. 认知分类体系（Cognitive Taxonomy）¶

借鉴 Piaget 的认知发展四阶段理论，将12种核心能力划分为三个发展阶段：

发展阶段	核心能力	说明
感觉运动期 (Sensorimotor)	Boundary（边界）	区分一个物体与另一个物体的过渡
	Continuity（连续性）	物体在时空中持续存在为统一整体
	Permanence（永恒性）	不被感知时物体仍然存在
	Spatiality（空间性）	对欧氏空间属性的先验理解
具体运算期 (Concrete Op.)	Perceptual Constancy（知觉恒常）	外观变化不等于物理属性变化
	Intuitive Physics（直觉物理）	对物理规律的直觉
	Perspective Taking（视角采纳）	理解他人视角所见
	Conservation（守恒）	变换下属性不变
	Hierarchy（层级）	理解包含/排除关系
形式运算期 (Formal Op.)	Intentionality（意图理解）	理解他人意图
	Mechanical Reasoning（机械推理）	从系统状态推断行为
	Tool Use（工具使用）	操纵物体达成目标的能力

能力之间存在依赖关系：低层次能力是高层次能力的认知基础。

2. CoreCognition 基准构建¶

数据集包含 1503个样本，每个概念至少95个样例，涵盖图像和视频输入。构建流程：

原型设计（Prototyping）：将12个理论概念转化为5-10个原型场景，每个场景抽象地描述一种可测试的认知情境（如物体永恒性→杯子藏球实验）
实例化（Instantiation）：从互联网、公开数据集、生成模型、模拟环境、实际拍摄等来源收集视觉素材，配对精心设计的问题和选项，形成多选题（MCQ）
质量控制（Quality Control）：每个QA经两轮独立交叉验证；额外通过Amazon Mechanical Turk的20名标注员验证；人类一致性错误的题目被二次审核

三条核心设计准则：

区分性（Discriminativeness）：缺乏目标核心知识的模型必然答错
最小化混淆（Minimal Confounding）：最小化对物体识别等辅助能力的依赖
最小化文本捷径（Minimal Text Shortcut）：不能仅凭文本推理出答案

3. 推理与评估策略¶

循环评估（Circular Evaluation）：对k选题循环旋转选项k次，取正确率均值，缓解选项位置偏差
两阶段评分：第一阶段通过模板匹配+LLM-as-Judge将自由文本映射到选项；第二阶段与GT比较。高FAIL率模型被排除
11种Prompt：涵盖无prompt、深思、解释、奖惩、偏差缓解、角色扮演、认知指令等类别

4. Concept Hacking（概念黑客）¶

这是本文最核心的方法创新——一种受控实验方法，通过系统地操纵图像中的因果特征来完全反转GT标签，从而区分模型是真正理解还是捷径学习。

具体做法：从CoreCognition中选取45个样本，为每个样本创建一个操纵版本——保持问题和无关条件不变，但通过改变任务相关特征使正确答案完全反转。

对每对（控制版/操纵版），模型的四种可能结果：

控制题	操纵题	解释
✓ 正确	✓ 正确	核心知识：真正理解了概念
✓ 正确	✗ 错误	捷径学习：依赖表面模式，操纵后失败
✗ 错误	✓ 正确	巧合正确（错误方式碰巧对了）
✗ 错误	✗ 错误	核心缺失：完全缺乏该核心知识

损失函数 / 训练策略¶

本文为评测工作，不涉及模型训练。核心贡献在于基准构建与评估方法论。

实验关键数据¶

主实验¶

评测230个模型（25个商用+205个开源），涵盖1B至110B参数规模。

模型	感觉运动期均值	具体运算期均值	形式运算期均值	总均值
Human	~82.1	~83.0	~87.2	86.98
GPT-o1	65.3	72.3	90.3	74.91
GPT-4o	67.8	62.1	86.5	69.25
Qwen2.5-VL-72B	62.3	64.2	88.0	68.29
QVQ-72B	67.6	69.8	58.3	68.07
InternVL3-78B	65.7	57.4	60.2	64.60
Claude-3.5-Sonnet	57.9	55.8	79.9	61.92

关键发现：所有MLLM在低层次阶段（感觉运动期、具体运算期）大幅落后于人类15-23个百分点，而在形式运算期接近或超过人类水平。商用模型并不一致优于开源模型。

消融实验¶

Prompt影响¶

Prompt类型	代表	相对效果
无prompt	空字符串	基线
深思类	"Let's think step by step"	微弱提升
解释类	要求解释答案	无显著提升
奖惩类	给200美元tip	无显著提升
认知指令	提供概念描述	+6%以上，唯一有效prompt

认知指令prompt有效，说明核心知识可能以分布式方式编码在模型参数中，显式概念提示起到"检索线索"的作用。

推理模型 vs 指令模型¶

在12种核心能力中，推理模型（如GPT-o1、QVQ等）在10种能力上与对应指令微调模型无显著差异。仅知觉恒常略优（P=0.067）、视角采纳反而更差（P=0.004）。推理和test-time scaling未能有效改善核心知识缺陷。

关键发现¶

核心知识缺陷（Core Knowledge Deficits）：MLLM在低层次能力上系统性表现差于高层次能力，与人类一致高水平形成鲜明对比
依赖关系错位（Misaligned Dependency）：高层次能力表现与底层支撑能力不相关（Pearson ρ<0.4），缺乏人类认知发展中的层级结构化依赖
缩放失效（Not Scaling）：9种低层次能力中7种的缩放斜率显著低于高层次能力；视角采纳甚至出现逆向缩放（模型越大越差）
捷径学习加剧（Shortcut Intensification）：Concept Hacking实验显示，大模型更倾向于落入"捷径"或"核心缺失"象限，而非趋向人类核心知识区域。GPT-4o等最强模型也存在显著捷径依赖
核心能力可预测高层表现：除视角采纳和直觉物理外，核心能力与26个公开基准和SEED-Bench高层能力强相关

亮点与洞察¶

跨学科视角独特：将发展认知科学的核心知识理论系统引入MLLM评测，从柏拉图到Piaget的理论基础扎实
评测规模空前：230个模型 × 11种prompt = 2530个数据点，覆盖商用/开源/推理模型
Concept Hacking 方法新颖：通过受控操纵因果特征反转GT，精准区分真正理解vs捷径学习，是比对抗样本更有原则性的评估范式
揭示缩放法则的局限：明确指出"简单增大模型"不能解决核心知识缺陷，甚至会恶化某些能力（如视角采纳的逆向缩放）
认知指令prompt的发现：仅需简单的概念描述就能提升6%+，提示核心知识以分布式形式存在但难以自发检索

局限与展望¶

VQA格式限制：依赖语言能力、计数、物体识别等辅助能力，无法完全消除混淆因素；也限制了非语言模型的测试
Concept Hacking扩展性有限：精细设计操纵对的过程耗时，目前仅45对样本，难以大规模化
未涉及训练改进方案：仅诊断了问题，未提出具体的训练方法来弥补核心知识缺陷
静态评估：核心知识在人类是通过交互获得的，静态VQA可能无法完整捕捉这种能力
未来方向：可探索在预训练前先蒸馏核心知识、设计核心知识增强的训练课程、以及补充纯视觉（非语言）评估格式

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 核心知识视角+Concept Hacking方法均为全新贡献
实验充分度: ⭐⭐⭐⭐⭐ — 230模型×11 prompt，消融全面，统计检验充分
写作质量: ⭐⭐⭐⭐ — 哲学引入精彩但篇幅略长，主体结构清晰
价值: ⭐⭐⭐⭐⭐ — 对MLLM根本局限的深刻诊断，具有重要指导意义