Temporal Slowness in Central Vision Drives Semantic Object Learning¶
会议: ICLR2026
arXiv: 2602.04462
代码: 待确认
领域: video_understanding
关键词: central vision, temporal slowness, self-supervised learning, Ego4D, semantic representation
一句话总结¶
通过模拟人类中央视觉(注视点裁剪)和时间慢性原则(时间对比学习),在 Ego4D 数据上训练 SSL 模型,发现两者组合能有效提升语义对象表征——中央视觉强化前景提取,时间慢性在注视凝视期间蒸馏语义信息。
研究背景与动机¶
- 领域现状:人类从自我中心视觉流中以极少监督获取语义对象表征,但 SSL 模型在人类视觉体验上训练时效果不佳。
- 现有痛点:现有 SSL 模型忽略了两个关键生物学过程:(1) 视网膜的中央高分辨率处理(中央视觉),(2) 时间上相近的输入获得相似表征(慢性原则)。
- 核心矛盾:全视野训练混合了前景和背景信息,且无法利用时间上的对象跟踪信息。
- 本文要解决什么? 研究中央视觉和时间慢性在语义对象表征形成中的作用。
- 切入角度:在 Ego4D(5个月视觉体验)上用注视点预测模型生成注视坐标,裁剪中央视野区域,训练时间对比 SSL 模型。
方法详解¶
整体框架¶
Ego4D 帧 → 注视点预测(GLC 模型)→ 中央视觉裁剪 → MoCoV3 + 时间对比学习(InfoNCE 在时间邻居间)。
关键设计¶
- 中央视觉模拟: 以注视点为中心裁剪 \(N \times N\) 区域
- 时间慢性学习: 在时间窗口 \(\Delta T\) 内随机采样邻居帧做正对
- 单 epoch 训练: 在 6400 万帧上训练一个 epoch
实验关键数据¶
主实验¶
| 方法 | ImageNet-1k | 细粒度平均 | 实例识别 |
|---|---|---|---|
| Frames Learning(全视野,无慢性) | 49.50 | 基线 | 基线 |
| Bio-inspired(中央+慢性) | 49.58 | 提升 | 提升 |
关键发现¶
- 中央视觉强化前景对象特征提取(vs 背景)
- 注视凝视期间的时间慢性蒸馏更广泛的语义信息(类别、上下文共现)
- 模型与人类语义判断更一致(CKA 分析)
- 两者互补:中央视觉提供"什么",慢性提供"语义关联"
亮点与洞察¶
- 跨学科融合——计算神经科学 + SSL + 计算机视觉
- 为理解人类视觉学习机制提供了计算证据
- 可启发更高效的嵌入式 AI 学习策略
局限性 / 可改进方向¶
- 绝对性能提升幅度不大
- 注视点预测模型引入误差
- 主要使用 ResNet50 和 ViT-B/16
评分¶
- 新颖性: ⭐⭐⭐⭐ 生物学启发+SSL 的创新结合
- 实验充分度: ⭐⭐⭐⭐ 多维度分析(分类、细粒度、实例、场景、共现)
- 写作质量: ⭐⭐⭐⭐ 逻辑清晰
- 价值: ⭐⭐⭐⭐ 对理解人类视觉学习有科学价值