COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training¶

会议: CVPR 2025
arXiv: 2412.01814
代码: https://github.com/ExplainableML/cosmos
领域: 图像分割
关键词: 视觉语言预训练, 自蒸馏, 跨模态学习, 语义分割, 对比学习

一句话总结¶

COSMOS 提出了一种跨模态自蒸馏框架，通过文本裁剪策略和交叉注意力模块在学生-教师结构中学习细粒度的跨模态表征，在仅使用 30M 数据预训练的情况下，在零样本检索、分类和语义分割任务上全面超越 CLIP 类基线，甚至超越在数十亿数据上训练的 OpenCLIP。

研究背景与动机¶

视觉语言模型（VLM）如 CLIP 使用全局对比损失将整幅图像和文本进行匹配，在多种视觉和语言任务上取得了显著进展。然而，这种全局对比学习具有先天缺陷：模型倾向于关注图像中的主要前景物体，忽视其他重要信息。这导致了所谓的"特征抑制"现象 —— 模型只学习了数据中最显著的特征，而忽略了其他有价值的区分特征。具体表现为三个方面：(1) 在密集预测任务（如语义分割）上表现不佳；(2) 难以区分视觉模式不同但整体相似的图像；(3) 文本编码器将文本当成词袋处理，忽略语序和组合语义。

之前的研究主要通过在图像编码器上引入自监督学习来改进，例如 SLIP 和 SILC 仅改进图像表征而不改进文本表征。核心矛盾在于：如何同时增强图像和文本的细粒度表征，而不仅仅关注单一模态？

COSMOS 的核心 idea：将自监督学习中的多裁剪增强策略推广到多模态场景，提出"文本裁剪"概念，配合跨注意力模块，在学生-教师框架中同时蒸馏图像和文本编码器，学习跨模态的细粒度表征。

方法详解¶

整体框架¶

COSMOS 采用学生-教师自蒸馏框架。学生模型和教师模型共享相同的 VLM 架构（图像编码器 + 文本编码器），教师模型通过学生参数的指数移动平均（EMA）更新。训练时，对图像-文本对进行多模态增强，生成全局和局部视图。所有视图通过学生，仅全局视图通过教师。学生额外包含一个交叉注意力模块，用于融合跨模态信息。总损失由标准 CLIP 对比损失和 COSMOS 跨模态自蒸馏损失组成。

关键设计¶

文本裁剪策略 (Text-Cropping Strategy):
- 灵感来源于图像的多裁剪增强（multi-crop），将其推广到文本域
- 利用 MLLM 生成的长合成描述（包含多个句子），从中随机采样不同长度的片段
- 全局文本视图：随机采样 1-5 个句子，覆盖图像的较大区域描述
- 局部文本视图：仅采样 1 个句子，聚焦于图像的局部区域描述
- 图像裁剪和文本裁剪独立进行，全局/局部裁剪不一定对应相同区域，这是设计上的特意选择
- 此设计使自蒸馏能同时优化文本和图像编码器
交叉注意力模块 (Cross-Attention Module):
- 仅添加在学生模型中，包含两个子模块：\(C^T_\theta\) 和 \(C^I_\theta\)
- \(C^T_\theta\)：以图像的 [CLS] token 作为 query，文本 token 作为 key/value，生成图像的跨模态嵌入 \(h_I\)
- \(C^I_\theta\)：以文本的 [EOT] token 作为 query，图像 token 作为 key/value，生成文本的跨模态嵌入 \(h_T\)
- 输出通过残差连接加回原始 token：\(h_I = C^T_\theta(q=[\text{cls}], kv=\text{txt-tok}) + [\text{cls}]\)
- 这使得蒸馏信号能够同时流入两个编码器，促进视觉和文本的双向基础学习
- 实际操作中使用全局裁剪的 token 作为 key/value
学生-教师自蒸馏框架:
- 教师参数通过 EMA 更新：\(\theta_t = \lambda \theta_t + (1-\lambda) \theta_s\)
- 学生处理所有裁剪（全局+局部），教师仅处理全局裁剪
- 这种不对称设计促使学生从局部特征预测教师的全局上下文

损失函数 / 训练策略¶

CLIP 对比损失 \(\mathcal{L}_{CLIP}\)：学生内部的标准对称 InfoNCE 损失，在所有裁剪上计算
COSMOS 跨模态自蒸馏损失 \(\mathcal{L}_{COSMOS}\)：将学生的跨模态嵌入 (\(h_I\), \(h_T\)) 与教师的 [CLS] 和 [EOT] token 进行四重对称 InfoNCE 匹配
总损失：\(\mathcal{L}_{total} = \mathcal{L}_{CLIP} + \mathcal{L}_{COSMOS}\)
一个重要优点：两个损失项无需额外的缩放超参，直接等权相加即可获得最优效果
训练 32 个 epoch，使用 ViT-B/16 作为视觉编码器

实验关键数据¶

主实验¶

数据集	指标	本文 (Merged-30M)	DreamLIP (30M)	CLIP (30M)	提升 (vs CLIP)
MSCOCO I2T	R@1	68.0	62.3	63.2	+4.8
MSCOCO T2I	R@1	52.5	44.9	48.2	+4.3
Flickr30K I2T	R@1	92.9	89.9	90.5	+2.4
Flickr30K T2I	R@1	80.3	73.3	75.9	+4.4
ImageNet	Top-1 Acc	57.6	58.4	50.0	+7.6
语义分割 (8 benchmarks)	Avg mIoU	20.0	-	-	-

消融实验¶

配置	关键指标	说明
CLIP loss only	基线	标准 CLIP 对比学习
+ Text cropping	检索/分割均提升	文本增强是关键创新
+ Cross-attention	进一步提升	跨模态融合增强表征
COSMOS (30M) vs OpenCLIP (1B)	20.0 vs 16.5 avg mIoU	30M 数据超越 1B 数据
COSMOS w/ SCLIP	37.8 avg mIoU	接近在 400M 数据上训练的 SCLIP (38.2)

关键发现¶

COSMOS 在仅使用 30M 数据的情况下，检索性能超越在 2.5B 数据上训练的 Llip（MSCOCO: 68.0 vs 63.4 I2T R@1）
语义分割上，30M 数据几乎翻倍超越 1B 数据的 OpenCLIP（Cityscapes: 13.9 vs 8.5）
在 SugarCrepe 和 SVO 等组合理解基准上也有显著优势，平均 86.6 vs 81.8 (DreamLIP)
交叉注意力的可视化表明模型能有效定位图像和文本中的相关区域

亮点与洞察¶

文本裁剪的巧妙设计：将图像领域成熟的多裁剪自蒸馏策略推广到文本，利用合成长描述构造全局/局部文本视图，这是一个简洁但有效的创新
跨模态嵌入的双向蒸馏：不同于之前仅改进图像编码器的方法，COSMOS 通过交叉注意力模块让蒸馏信号同时流入两个编码器
无需超参缩放：两个损失项等权相加的简洁设计，避免了网格搜索最优损失比例的麻烦
数据效率极高：30M 数据训练的模型在多个任务上超越百亿级数据训练的模型，展现了方法设计的优越性

局限与展望¶

分类任务的绝对性能仍低于在数十亿数据上训练的模型，说明分类任务更依赖数据规模
依赖 MLLM 生成的合成长描述，描述质量直接影响文本裁剪效果
交叉注意力模块增加了学生模型的计算开销
仅在 ViT-B/16 上验证，是否在更大模型上同样有效有待验证
文本裁剪和图像裁剪独立进行，未探索对齐裁剪区域是否有益

评分¶

新颖性: ⭐⭐⭐⭐ 文本裁剪和跨模态自蒸馏的结合有新意，但整体框架仍在 DINO+CLIP 的成熟范式内
实验充分度: ⭐⭐⭐⭐⭐ 检索、分类、分割三大类任务 + 视觉感知和组合理解评估 + 充分消融
写作质量: ⭐⭐⭐⭐ 论文结构清晰，图表丰富，方法阐述明确
价值: ⭐⭐⭐⭐ 在数据高效的 VLM 预训练方向提供了有价值的范式，特别是文本裁剪策略值得推广