Scaling Language-Free Visual Representation Learning¶

会议: ICCV 2025
arXiv: 2504.01017
代码: https://davidfan.io/webssl/
领域: 自监督学习 / 表示学习
关键词: visual self-supervised learning, CLIP对比, scaling law, VQA评估, 无语言监督

一句话总结¶

通过在MetaCLIP的20亿web图像上训练DINOv2/MAE系列模型（1B-7B参数），系统性地证明纯视觉自监督学习在模型和数据规模上展现优于CLIP的scaling behavior，5B+参数时在VQA平均性能上超越CLIP——包括传统认为需要语言监督的OCR/Chart任务。

背景与动机¶

视觉表示学习沿两条路径发展：CLIP用图文对训练，SSL（如DINOv2、MAE）只用图像。尽管SSL在分类和分割等传统视觉任务上已经很强，但在多模态LLM（如VQA）中远不如CLIP，尤其是OCR和图表理解任务。社区普遍认为这是因为SSL缺乏"语言监督"带来的语义信息。但一个被忽视的事实是：CLIP用的是数十亿级web数据，而SSL通常只用数百万级的ImageNet。那么SSL落后于CLIP，到底是因为"没有语言"还是因为"数据不同"？

核心问题¶

视觉自监督方法在多模态场景下落后于CLIP，究竟是语言监督的缺失导致的，还是训练数据规模和分布的差异？如果在相同数据上训练，SSL能否匹配甚至超越CLIP？

方法详解¶

整体框架¶

Web-SSL是一系列纯视觉自监督模型（Web-DINO = DINOv2在web数据上训练，Web-MAE = MAE在web数据上训练）。训练数据：MetaCLIP的20亿web图像（MC-2B），只用图像不用文本。模型规模从1B到7B。评估方式：冻结视觉编码器，通过Cambrian-1的视觉指令微调流程（2阶段MLP+LLM），在16个VQA benchmark上评估。

关键设计¶

公平对比的实验设计：这不是一个方法论文，而是一个实验研究。核心创新在于控制变量：SSL和CLIP在完全相同的MC-2B数据上训练，相同的模型架构（ViT-1B到7B），相同的评估流程（Cambrian-1 + Llama-3 8B）。这样就消除了"数据差异"这个混淆因素。
SSL scaling比CLIP更好的发现：Web-DINO的VQA性能随模型增大近似log-linear增长且未饱和（到7B仍在提升），而CLIP在3B后就基本饱和了。在数据维度上，Web-DINO 7B从1B到8B训练样本持续提升，尤其OCR & Chart持续改善。这意味着SSL有显著的未被挖掘的scaling潜力。
数据过滤的OCR/Chart提升：通过SmolVLM2过滤MC-2B中包含文本的图像，发现仅使用1.3%的图表/文档重图像就能让Web-DINO在OCR & Chart上超越全量数据训练的CLIP（+4.3%），同时平均VQA也更高。这证明数据组成（而非语言监督）才是OCR能力的关键。
涌现的语言对齐性：通过计算SSL编码器特征与LLM（Llama-3.1 8B/70B）文本特征的内在对齐度，发现随着模型增大和数据增多，SSL编码器自然地学到了与语言更对齐的视觉特征——无需任何语言监督。这呼应了"柏拉图表示假说"。

损失函数 / 训练策略¶

Web-DINO：DINOv2的标准训练recipe，batch size 3072，lr 3.5e-4，warmup 100K
Web-MAE：标准MAE recipe，大模型降低lr至1.6e-3防止发散
CLIP：MetaCLIP标准recipe，batch size 32768
所有模型在224x224分辨率，单epoch（2B图像看一次）

实验关键数据¶

模型	参数	数据	Avg VQA	OCR & Chart	Vision-Centric	IN1k linear
MetaCLIP ViT-G(HF)	1B	12.8B	54.8	37.3	58.4	86.4
SigLIP SO400M	400M	45.0B	55.4	39.5	58.9	86.5
DINOv2 ViT-g(HF)	1B	1.9B	47.9	21.2	55.3	86.0
Web-DINO 7B	7B	8B	55.2→59.9	39.4→55.1	59.1→60.8	86.5

Web-DINO 5B+超越同数据的CLIP在Average VQA上
Web-DINO 7B (8B data, 518px)达到59.9 Avg VQA，与SigLIP2 384px的62.0相当，且只用5x更少的数据
1.3%文本过滤后的Web-DINO 2B在OCR & Chart上比全数据CLIP 2B高4.3%
传统视觉任务上：Web-DINO在IN1k linear probe达86.5%，ADE20K分割超越MetaCLIP

消融实验要点¶

在ImageNet上训练的Web-DINO不展现scaling behavior——数据多样性是scaling的前提
MAE也展现类似的scaling趋势，且在OCR & Chart上更强，说明这不是DINOv2特有现象
高分辨率适配（224→378→518）持续提升OCR & Chart性能
CLIP在3B后所有VQA类别都饱和，SSL则持续提升

亮点¶

挑战了"视觉SSL需要语言监督"的共识：这是一个paradigm shift级别的发现——语言监督并非必须，数据规模和分布才是关键
Bitter Lesson的视觉版本：减少inductive bias（不用语言监督），依靠scale，反而能获得更好的scaling behavior
实验设计极其严谨：控制变量做得非常好，所有模型同数据同架构同评估，结论有说服力
数据过滤的发现很有启发性：仅用1.3%的文本密集图像就能超越CLIP的OCR能力，打开了数据组成优化的新方向
涌现对齐：SSL模型在scale up后自然与LLM对齐，这是对Platonic Representation Hypothesis的实证支持

局限性 / 可改进方向¶

SSL不支持zero-shot分类（需要通过MLLM间接实现或用LiT-style adapter）
仅在Llama-3 8B上验证VQA，更大LLM可能改变结论
7B encoder很大，实际部署需要考虑效率
还没探索超过7B和超过8B数据的regime
数据过滤用的是MLLM打标签（有点用语言），纯无语言的数据策划方法值得探索

与相关工作的对比¶

vs. DINOv2：同方法但不同数据——Web-DINO在web数据上训练显著优于ImageNet上的DINOv2在VQA上的表现，证明数据是瓶颈
vs. CLIP/SigLIP：公平对比下SSL scaling更好；CLIP在小模型时可能更data-efficient，但大模型时优势消失
vs. Cambrian-1：使用其评估框架但提供了新的vision encoder洞察

启发与关联¶

对多模态社区有深远影响：未来MLLM可以考虑不依赖CLIP，转而使用scaling up的SSL encoder
数据组成优化（文本密集图像比例）的思路可以迁移到其他SSL预训练
与ideas/self_supervised/和ideas/multimodal_vlm/中关于VFM和表示学习的idea高度相关

评分¶

新颖性: ⭐⭐⭐⭐⭐ paradigm shift级别的发现，挑战了CLIP主导的视觉预训练范式
实验充分度: ⭐⭐⭐⭐⭐ 1B-7B模型×1B-8B数据的全面scaling study，16个VQA+传统benchmark，对比CLIP/MAE/DINOv2，消融详尽
写作质量: ⭐⭐⭐⭐⭐ 以5个Research Questions组织发现，逻辑清晰，图表精美直观
价值: ⭐⭐⭐⭐⭐ 对视觉表示学习社区的认知产生重要影响，计划开源模型，引领SSL新方向