跳转至

🔄 自监督/表示学习

📹 ICCV2025 · 共 2

LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

提出LoftUp,通过坐标-cross-attention架构直接将低分辨率VFM特征映射到任意高分辨率,并用class-agnostic mask精炼+自蒸馏构建全分辨率伪GT进行训练,在6个下游任务上平均提升10-20%且在视频目标分割上提升近50%。

Scaling Language-Free Visual Representation Learning

通过在MetaCLIP的20亿web图像上训练DINOv2/MAE系列模型(1B-7B参数),系统性地证明纯视觉自监督学习在模型和数据规模上展现优于CLIP的scaling behavior,5B+参数时在VQA平均性能上超越CLIP——包括传统认为需要语言监督的OCR/Chart任务。