Temporal Slowness in Central Vision Drives Semantic Object Learning¶

会议: ICLR2026
arXiv: 2602.04462
代码: 待确认
领域: video_understanding
关键词: central vision, temporal slowness, self-supervised learning, Ego4D, semantic representation

一句话总结¶

通过模拟人类中央视觉（注视点裁剪）和时间慢性原则（时间对比学习），在 Ego4D 数据上训练 SSL 模型，发现两者组合能有效提升语义对象表征——中央视觉强化前景提取，时间慢性在注视凝视期间蒸馏语义信息。

研究背景与动机¶

领域现状：人类从自我中心视觉流中以极少监督获取语义对象表征，但 SSL 模型在人类视觉体验上训练时效果不佳。
现有痛点：现有 SSL 模型忽略了两个关键生物学过程：(1) 视网膜的中央高分辨率处理（中央视觉），(2) 时间上相近的输入获得相似表征（慢性原则）。
核心矛盾：全视野训练混合了前景和背景信息，且无法利用时间上的对象跟踪信息。
本文要解决什么？ 研究中央视觉和时间慢性在语义对象表征形成中的作用。
切入角度：在 Ego4D（5个月视觉体验）上用注视点预测模型生成注视坐标，裁剪中央视野区域，训练时间对比 SSL 模型。

方法详解¶

整体框架¶

Ego4D 帧 → 注视点预测（GLC 模型）→ 中央视觉裁剪 → MoCoV3 + 时间对比学习（InfoNCE 在时间邻居间）。

关键设计¶

中央视觉模拟: 以注视点为中心裁剪 \(N \times N\) 区域
时间慢性学习: 在时间窗口 \(\Delta T\) 内随机采样邻居帧做正对
单 epoch 训练: 在 6400 万帧上训练一个 epoch

实验关键数据¶

主实验¶

方法	ImageNet-1k	细粒度平均	实例识别
Frames Learning（全视野，无慢性）	49.50	基线	基线
Bio-inspired（中央+慢性）	49.58	提升	提升

关键发现¶

中央视觉强化前景对象特征提取（vs 背景）
注视凝视期间的时间慢性蒸馏更广泛的语义信息（类别、上下文共现）
模型与人类语义判断更一致（CKA 分析）
两者互补：中央视觉提供"什么"，慢性提供"语义关联"

亮点与洞察¶

跨学科融合——计算神经科学 + SSL + 计算机视觉
为理解人类视觉学习机制提供了计算证据
可启发更高效的嵌入式 AI 学习策略

局限性 / 可改进方向¶

绝对性能提升幅度不大
注视点预测模型引入误差
主要使用 ResNet50 和 ViT-B/16

评分¶

新颖性: ⭐⭐⭐⭐ 生物学启发+SSL 的创新结合
实验充分度: ⭐⭐⭐⭐ 多维度分析（分类、细粒度、实例、场景、共现）
写作质量: ⭐⭐⭐⭐ 逻辑清晰
价值: ⭐⭐⭐⭐ 对理解人类视觉学习有科学价值