跳转至

BabyVLM-V2: Toward Developmentally Grounded Pretraining and Benchmarking of Vision Foundation Models

会议: CVPR 2026
arXiv: 2512.10932
代码: https://shawnking98.github.io/BabyVLM-v2/ (有)
领域: 多模态VLM / 认知科学
关键词: 发育认知, 婴儿视觉, 样本效率预训练, NIH Baby Toolbox, DevCV Toolbox

一句话总结

提出BabyVLM-V2框架,从婴儿第一视角的SAYCam纵向语料构建三种格式预训练数据(768K图像对+181K视频对+63K交错序列),设计基于NIH Baby Toolbox®的DevCV Toolbox(10个发育认知任务),从零训练的紧凑模型在部分数学任务上超越GPT-4o,首次系统探索人工发育智能(ADI)。

研究背景与动机

领域现状:视觉基础模型依赖scaling law在海量数据上预训练,但早期儿童能从极其有限的视觉输入(出生到3岁约4万小时清醒时间)中发展出强大的感知和推理能力。这构成了样本效率预训练的自然目标。

现有痛点:BabyVLM-V1(前作)存在四大不足——(1) 仅用SAYCam约1/3录像(67K图像对),覆盖极小比例;(2) 仅支持图像-文本对,不支持视频和多轮对话;(3) 4个评测任务是直觉设计而非基于标准化心理学测试;(4) 模型开放集性能接近零,需对logits后处理才能评估。

核心矛盾:如何在婴儿有限的感官体验约束下,训练出像早期儿童一样能力多样的基础模型?如何用发育心理学标准公正评估?

切入角度:(1) 最大化SAYCam语料利用率并构建多格式数据支持多样化下游任务;(2) 使用2025年2月NIH发布的Baby Toolbox®——目前最权威的儿童神经发育评估工具——作为benchmark设计基础。

核心idea:将发育心理学标准化评估方法工程化为AI评测的计算机视觉任务,建立DevCV Toolbox。

方法详解

整体框架

SAYCam婴儿纵向录像(478小时) → 最小化处理构建三类预训练数据 → 三阶段预训练(视觉编码→对齐→多格式) → 指令微调(113K样本) → DevCV Toolbox评测(10个认知任务)。

关键设计

  1. 预训练数据构建(最小化处理的发育真实性):

    • 视频-语句对(181K):按语音转录边界切分视频,Azure语音识别提取字幕,X-CLIP相似度>0.1过滤,保留138小时
    • 图像-语句对(768K):从视频对中1FPS采样,CLIP相似度>0.2保留。相比V1的67K扩大11倍
    • 交错图文序列(63K):滑动窗口(大小4-8)组合连续片段的最佳帧+语句对,模拟婴儿连续交互经验
    • 设计动机:三种格式分别支持视频理解、图像理解和多轮对话,覆盖DevCV Toolbox多样化任务需求
  2. DevCV Toolbox(10个发育认知任务,基于NIH Baby Toolbox®):

    • 语言子域:Looking While Listening(6-24月,双图选择)、Picture Vocabulary(≥25月,四图词汇理解)、Localization(1-42月,物体定位)
    • 执行功能/记忆子域:Left/Right(朝向辨别)、Spatial Details(空间细节)、Visual Delayed Response(遮挡后记忆)、Memory(多轮延迟记忆)
    • 数学子域:Who Has More(数量比较,合成+自然两个版本)、Subitizing(快速计数)、Object Counting(物体计数)
    • 每个任务都从SAYCam帧中构建自然场景样本,替代原始工具箱中的卡通刺激物,确保域内评测
    • 设计动机:NIH Baby Toolbox®的临床使用验证了其作为发育评估工具的可信度
  3. 适配过程(以Picture Vocabulary为例):

    • 原始NIH测试:iPad上展示4张卡通图+语音提示→儿童点击
    • DevCV适配:SAYCam帧1FPS采样→GPT-4o+手工标注物体→Grounding-DINO裁剪→MAB-CDI词汇表过滤→按语义/语音学分布构造干扰项→人工质量审核
  4. 模型架构:

    • ViT-L-16(300M) + MLP连接器 + LLaMA-1.1B
    • 全部从零训练,不使用任何预训练权重——确保能力完全来自婴儿语料
    • 输入:文本/单图/多图/视频/多轮对话;输出:自然语言

损失函数 / 训练策略

三阶段pipeline:Stage 1 视觉编码器预训练,Stage 2 图像-文本对齐,Stage 3 多格式联合训练。最后基于DevCV任务的指令微调。

实验关键数据

主实验(DevCV Toolbox 域内评测)

模型 Overall Count PV(词汇) Memory WhoHasMore LeftRight
人类表现 93.0 99.1 91.8 87.3 63.6/95.5 94.5
Gemini-2.5-flash 72.7 71.1 91.2 84.8 42.4 34.9
GPT-4o ~70 ~65 ~90 ~80 ~40 ~34
BabyVLM-V2 竞争力 部分超越GPT-4o 竞争力 竞争力 竞争力 竞争力

消融实验

配置 关键影响 说明
仅图像-文本预训练(V1) 基线 开放集接近零
+视频-语句(181K) +视频理解任务改善 DelayedResponse任务受益
+交错序列(63K) +多轮对话任务改善 Memory任务受益
+指令微调(113K) 显著全面提升 从logits输出→自然语言
768K vs 67K图像对 V2 >> V1 数据量的直接影响

关键发现

  • 数学任务超越GPT-4o:从零训练的~1.4B模型在Who Has More和Counting上部分超越GPT-4o——婴儿经验数据蕴含足够的计数和数量理解
  • DevCV Toolbox的人类上界(93%)远高于所有AI模型,AI与儿童认知差距显著
  • Subitizing和Looking While Listening作为hold-out任务测试泛化性,证实多格式预训练的泛化收益
  • 三种预训练数据格式各有独立且互补的贡献
  • OOD测试集(Ego4D构建)性能下降验证了域内评测的必要性

亮点与洞察

  • 发育心理学标准化评估的AI工程化:首次将NIH Baby Toolbox®转化为AI评测benchmark,开创了发育计算视觉的研究范式。未来心理学家可以用DevCV Toolbox"阅读早期儿童的心智"
  • 挑战Scaling Law:仅478小时的婴儿经验就能训练出在数学任务上超越GPT-4o的模型,展示了样本效率预训练的巨大潜力
  • 数据格式多样性>数据量:V1(67K)到V2(768K+视频+交错)的跨越不仅来自量的增加,更关键的是格式多样性使能力多样化
  • 三方有益:让大学可参与FM研究+为认知科学提供实验工具+增进AI公众理解

局限与展望

  • SAYCam仅3名婴儿(6-32月龄),样本量极小且存在个体差异。BabyView等更大规模数据待纳入
  • 紧凑模型在复杂推理上仍远逊于大模型和人类——ADI差距巨大
  • DevCV Toolbox缺儿童实际表现数据(仅成人上界)——需心理学实验室合作收集真正的发育对比数据
  • 指令微调用DevCV任务本身,可能存在task leakage
  • 不包括非视觉的语言和运动发育评估

相关工作与启发

  • vs BabyVLM-V1: 数据扩大11倍+多格式;benchmark 4→10任务且基于NIH标准化测试;模型从logits→自然语言
  • vs Vong et al.(CLIP on SAYCam): 仅关注词-指称映射,本文关注通用感知
  • vs DevBench/KIVA: 面向更大年龄段,不匹配SAYCam的6-32月龄段
  • 启发:发育认知视角可为AI训练策略提供全新灵感——也许"像婴儿一样学习"是通往AGI的另一条道路

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 独特的发育认知视角+NIH Baby Toolbox®的首次AI适配
  • 实验充分度: ⭐⭐⭐⭐ DevCV设计严谨,缺乏真实儿童数据对比
  • 写作质量: ⭐⭐⭐⭐⭐ 跨学科背景介绍充分
  • 价值: ⭐⭐⭐⭐⭐ 对理解AI与人类认知的关系有深远影响

相关论文