BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models¶

会议: CVPR 2026
arXiv: 2512.10932
代码: https://shawnking98.github.io/BabyVLM-v2/ (有)
领域: 多模态VLM / 认知科学
关键词: 发育认知, 婴儿视觉, 样本效率预训练, NIH Baby Toolbox, DevCV Toolbox

一句话总结¶

提出BabyVLM-V2框架，从婴儿第一视角的SAYCam纵向语料构建三种格式预训练数据（768K图像对+181K视频对+63K交错序列），设计基于NIH Baby Toolbox®的DevCV Toolbox（10个发育认知任务），从零训练的紧凑模型在部分数学任务上超越GPT-4o，首次系统探索人工发育智能(ADI)。

研究背景与动机¶

领域现状：视觉基础模型依赖scaling law在海量数据上预训练，但早期儿童能从极其有限的视觉输入（出生到3岁约4万小时清醒时间）中发展出强大的感知和推理能力。这构成了样本效率预训练的自然目标。

现有痛点：BabyVLM-V1（前作）存在四大不足——(1) 仅用SAYCam约1/3录像(67K图像对)，覆盖极小比例；(2) 仅支持图像-文本对，不支持视频和多轮对话；(3) 4个评测任务是直觉设计而非基于标准化心理学测试；(4) 模型开放集性能接近零，需对logits后处理才能评估。

核心矛盾：如何在婴儿有限的感官体验约束下，训练出像早期儿童一样能力多样的基础模型？如何用发育心理学标准公正评估？

切入角度：(1) 最大化SAYCam语料利用率并构建多格式数据支持多样化下游任务；(2) 使用2025年2月NIH发布的Baby Toolbox®——目前最权威的儿童神经发育评估工具——作为benchmark设计基础。

核心idea：将发育心理学标准化评估方法工程化为AI评测的计算机视觉任务，建立DevCV Toolbox。

方法详解¶

整体框架¶

SAYCam婴儿纵向录像(478小时) → 最小化处理构建三类预训练数据 → 三阶段预训练(视觉编码→对齐→多格式) → 指令微调(113K样本) → DevCV Toolbox评测(10个认知任务)。

关键设计¶

预训练数据构建（最小化处理的发育真实性）:
- 视频-语句对(181K)：按语音转录边界切分视频，Azure语音识别提取字幕，X-CLIP相似度>0.1过滤，保留138小时
- 图像-语句对(768K)：从视频对中1FPS采样，CLIP相似度>0.2保留。相比V1的67K扩大11倍
- 交错图文序列(63K)：滑动窗口(大小4-8)组合连续片段的最佳帧+语句对，模拟婴儿连续交互经验
- 设计动机：三种格式分别支持视频理解、图像理解和多轮对话，覆盖DevCV Toolbox多样化任务需求
DevCV Toolbox（10个发育认知任务，基于NIH Baby Toolbox®）:
- 语言子域：Looking While Listening(6-24月,双图选择)、Picture Vocabulary(≥25月,四图词汇理解)、Localization(1-42月,物体定位)
- 执行功能/记忆子域：Left/Right(朝向辨别)、Spatial Details(空间细节)、Visual Delayed Response(遮挡后记忆)、Memory(多轮延迟记忆)
- 数学子域：Who Has More(数量比较,合成+自然两个版本)、Subitizing(快速计数)、Object Counting(物体计数)
- 每个任务都从SAYCam帧中构建自然场景样本，替代原始工具箱中的卡通刺激物，确保域内评测
- 设计动机：NIH Baby Toolbox®的临床使用验证了其作为发育评估工具的可信度
适配过程（以Picture Vocabulary为例）:
- 原始NIH测试：iPad上展示4张卡通图+语音提示→儿童点击
- DevCV适配：SAYCam帧1FPS采样→GPT-4o+手工标注物体→Grounding-DINO裁剪→MAB-CDI词汇表过滤→按语义/语音学分布构造干扰项→人工质量审核
模型架构:
- ViT-L-16(300M) + MLP连接器 + LLaMA-1.1B
- 全部从零训练，不使用任何预训练权重——确保能力完全来自婴儿语料
- 输入：文本/单图/多图/视频/多轮对话；输出：自然语言

损失函数 / 训练策略¶

三阶段pipeline：Stage 1 视觉编码器预训练，Stage 2 图像-文本对齐，Stage 3 多格式联合训练。最后基于DevCV任务的指令微调。

实验关键数据¶

主实验（DevCV Toolbox 域内评测）¶

模型	Overall	Count	PV(词汇)	Memory	WhoHasMore	LeftRight
人类表现	93.0	99.1	91.8	87.3	63.6/95.5	94.5
Gemini-2.5-flash	72.7	71.1	91.2	84.8	42.4	34.9
GPT-4o	~70	~65	~90	~80	~40	~34
BabyVLM-V2	竞争力	部分超越GPT-4o	竞争力	竞争力	竞争力	竞争力

消融实验¶

配置	关键影响	说明
仅图像-文本预训练(V1)	基线	开放集接近零
+视频-语句(181K)	+视频理解任务改善	DelayedResponse任务受益
+交错序列(63K)	+多轮对话任务改善	Memory任务受益
+指令微调(113K)	显著全面提升	从logits输出→自然语言
768K vs 67K图像对	V2 >> V1	数据量的直接影响

关键发现¶

数学任务超越GPT-4o：从零训练的~1.4B模型在Who Has More和Counting上部分超越GPT-4o——婴儿经验数据蕴含足够的计数和数量理解
DevCV Toolbox的人类上界(93%)远高于所有AI模型，AI与儿童认知差距显著
Subitizing和Looking While Listening作为hold-out任务测试泛化性，证实多格式预训练的泛化收益
三种预训练数据格式各有独立且互补的贡献
OOD测试集(Ego4D构建)性能下降验证了域内评测的必要性

亮点与洞察¶

发育心理学标准化评估的AI工程化：首次将NIH Baby Toolbox®转化为AI评测benchmark，开创了发育计算视觉的研究范式。未来心理学家可以用DevCV Toolbox"阅读早期儿童的心智"
挑战Scaling Law：仅478小时的婴儿经验就能训练出在数学任务上超越GPT-4o的模型，展示了样本效率预训练的巨大潜力
数据格式多样性>数据量：V1(67K)到V2(768K+视频+交错)的跨越不仅来自量的增加，更关键的是格式多样性使能力多样化
三方有益：让大学可参与FM研究+为认知科学提供实验工具+增进AI公众理解

局限与展望¶

SAYCam仅3名婴儿(6-32月龄)，样本量极小且存在个体差异。BabyView等更大规模数据待纳入
紧凑模型在复杂推理上仍远逊于大模型和人类——ADI差距巨大
DevCV Toolbox缺儿童实际表现数据（仅成人上界）——需心理学实验室合作收集真正的发育对比数据
指令微调用DevCV任务本身，可能存在task leakage
不包括非视觉的语言和运动发育评估

评分¶

新颖性: ⭐⭐⭐⭐⭐ 独特的发育认知视角+NIH Baby Toolbox®的首次AI适配
实验充分度: ⭐⭐⭐⭐ DevCV设计严谨，缺乏真实儿童数据对比
写作质量: ⭐⭐⭐⭐⭐ 跨学科背景介绍充分
价值: ⭐⭐⭐⭐⭐ 对理解AI与人类认知的关系有深远影响