Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training¶
会议: CVPR 2025
arXiv: 2412.00440
代码: https://github.com/anakin-skywalker-Joseph/Holistic-CLIP
领域: 多模态VLM / 视觉语言预训练
关键词: CLIP, 对比学习, 多文本对齐, 多分支视觉编码器, 细粒度视觉表达
一句话总结¶
将CLIP从传统的一对一(image, text)对比学习升级为多对多(multi-image-embeddings, multi-texts)对比学习范式,通过VLM生成多视角多层次的描述文本、多分支视觉编码器输出多种视觉embedding,实现更全面的视觉语言对齐,在检索/分类/密集任务上大幅超越baseline。
研究背景与动机¶
领域现状:CLIP是视觉语言模型的基石,通过对(image, text)对做InfoNCE对比学习建立跨模态对齐。OpenAI CLIP使用400M网络爬取的图文对训练。
现有痛点——CLIP的"近视"困境: - 单一文本:网络文本格式统一、大多是简短概述,缺乏复杂关系描述,甚至包含噪声 - 视觉损伤:一张包含丰富信息的图片只匹配一段紧凑文本,大量视觉多样性被丢弃 - 语义混乱:不同语义层级(整体概述/局部细节/风格/情感)被粗暴聚合到同一embedding空间
核心矛盾:一张图包含的信息量远超一段文本,用一个embedding向量无法充分表达一张图的所有视觉元素。
本文切入角度:受"盲人摸象"寓言启发——多个短视的认知组合在一起就能得到全局理解。为每张图生成多视角多层次的文本描述,并设计多分支视觉编码器输出多个互补的视觉embedding,实现part-to-part的多对多对齐。
方法详解¶
整体框架¶
输入端:使用VLM为每张图生成M个不同视角/粒度的描述文本;模型端:修改CLIP图像编码器为多分支输出M个视觉embedding;优化端:设计multi-to-multi对比学习实现part-to-part匹配。推理时可灵活选择/组合不同视觉embedding适配不同下游任务。
关键设计¶
-
多视角多层次数据构建:
- 功能:为每张图生成M个多样化描述文本,覆盖不同视角、粒度和层次
- 核心思路:设计四种prompt spirit——Focus Guide(前景vs背景)、Physical or Sensory(实体名词vs感觉风格)、Gaze or Glance(细致长描述vs概括短概述)、Complex Reasoning(关系vs序列)。使用InternVL2等VLM按不同prompt生成描述
- 设计动机:单VLM+多prompt(公式2)比多VLM+单prompt(公式1)文本多样性更高(similarity 0.48 vs 0.58),且部署更简单
-
多分支视觉编码器:
- 功能:修改CLIP图像编码器,输出M个不同的视觉embedding
- 核心思路:提出两种参数高效方案——(a) 初始化M个CLS token,每个输出对应的embedding;(b) 扩展最后几层的MLP为M个并行部分。单次前向即可得到M个视觉embedding
- 设计动机:一个embedding向量无法充分表达图像中的多种视觉元素(颜色、物体、风格、事件等),多分支输出可解决"视觉损伤"问题,且每个embedding可以有自己的语义角色
-
Multi-to-Multi对比学习(M2M):
- 功能:实现M个视觉embedding与M个文本embedding的part-to-part精确匹配
- 核心思路:先通过最优匹配(匈牙利算法或贪心匹配)建立视觉-文本embedding对之间的对应关系,然后对每对做标准InfoNCE对比损失: \(\mathcal{L}_{M2M}^{T2I} = -\sum_{j=1}^K \sum_{m=1}^M \log \frac{\exp(\langle \mathbf{v}_{m,j}, \mathbf{t}_{\sigma(m),j} \rangle / \tau)}{\sum_{k=1}^K \exp(\langle \mathbf{v}_{m,k}, \mathbf{t}_{\sigma(m),j} \rangle / \tau)}\)
- 设计动机:比one-to-multi(O2M)对比学习更好——O2M将M个语义差异巨大的文本都拉向同一个视觉embedding,导致语义混乱。M2M让每个视觉分支对齐最匹配的文本,语义解耦更清晰
训练策略¶
在CC3M和CC12M上训练(分别3M和12M图文对)。使用InternVL2生成多角度描述。训练时文本数M=5(4个VLM描述+1个原始web文本)。
实验关键数据¶
主实验:图文检索(CC3M训练)¶
| 方法 | MSCOCO I2T R@1 | MSCOCO T2I R@1 | Flickr30K I2T R@1 | Flickr30K T2I R@1 |
|---|---|---|---|---|
| CLIP | 13.6 | 13.4 | 30.8 | 31.9 |
| O2M (5 texts, multi-prompt) | 24.5 | 26.3 | 60.7 | 61.7 |
| M2M Ψ_CLS (Ours, multi-prompt) | 28.0 | 27.8 | 62.9 | 64.2 |
| M2M Ψ_MLP (Ours, multi-prompt) | 28.2 | 27.4 | 63.7 | 63.9 |
| M2M Ψ_MLP (multi-VLM) | 31.2 | 30.7 | 66.5 | 66.4 |
消融实验:对齐策略对比¶
| 方法 | 对齐方式 | MSCOCO R@1 | Flickr R@1 |
|---|---|---|---|
| CLIP (O2O) | 1-to-1 | 13.6 | 30.8 |
| O2M | 1图-to-M文 | 24.5 | 60.7 |
| M2M (Ours) | M图-to-M文 | 28.2 | 63.7 |
关键发现¶
- M2M vs O2M:在MSCOCO I2T R@1上M2M比O2M提升15%(28.2 vs 24.5),说明part-to-part匹配优于将多文本强行拉向同一embedding
- vs 原始CLIP:Flickr30K上R@1从30.8提升到66.5(+116%),提升极其显著
- 多VLM > 多prompt:使用多VLM生成文本在CC3M数据上效果最好(31.2 vs 28.2),但部署成本更高
- 两种多分支方案:Ψ_MLP略优于Ψ_CLS,但两者差异不大,说明多分支的核心价值在于"有多个分支"而非具体实现方式
亮点与洞察¶
- "盲人摸象"类比精准:将CLIP的局限性类比为"近视",解决方案是"多视角组合",概念清晰有说服力。这种思路可迁移到其他需要多角度理解的任务
- 数据+模型+优化的全栈升级:不只改数据或只改模型,而是三者协同升级,系统性强
- 推理灵活性:多分支输出的多个embedding可在推理时按需选择和组合——粗粒度分类用全局embedding,细粒度检索用多embedding融合,实用价值高
- 语义可解释性:不同分支的embedding自然形成语义分解(如一个捕获物体、一个捕获风格、一个捕获空间关系),增强了模型可解释性
局限与展望¶
- VLM caption需要额外计算开销(尤其多VLM方案),大规模数据集上成本显著
- M个分支的语义角色是隐式学习的,没有显式约束保证每个分支的专门化
- 仅在CC3M/CC12M上验证(3M/12M级别),未在更大规模数据上实验(如LAION-2B)
- part-to-part匹配中的对应关系建立策略(匈牙利算法vs贪心)可能是性能瓶颈
相关工作与启发¶
- vs SigLIP/FLIP/FILIP:这些工作改进了CLIP的对比损失或attention方式,但仍是一对一范式,未从根本上解决视觉信息损失问题
- vs LaCLIP/DreamLIP:它们也用VLM做re-captioning,但仍是O2M对比学习,本文的M2M匹配更精确
- 多分支思路的启发:类似mixture-of-experts的概念——多个专家分别处理不同方面,组合起来比单一模型强
评分¶
- 新颖性: ⭐⭐⭐⭐ 从数据、模型、优化三个维度全面升级CLIP范式,M2M对比学习设计新颖
- 实验充分度: ⭐⭐⭐⭐ 10+数据集评估、详细消融(M值、prompt类型、编码器方案),但缺少大规模数据验证
- 写作质量: ⭐⭐⭐⭐ "盲人摸象"类比生动,但部分公式notation较复杂
- 价值: ⭐⭐⭐⭐ 为CLIP后续改进指明了清晰方向,多分支+M2M范式可被广泛采用
相关论文¶
- [NeurIPS 2025] Generalized Contrastive Learning for Universal Multimodal Retrieval
- [ICCV 2025] LangBridge: Interpreting Image as a Combination of Language Embeddings
- [ICCV 2025] Aligning Information Capacity Between Vision and Language via Dense-to-Sparse Feature Distillation for Image-Text Matching
- [ICML 2025] Don't Lag, RAG: Training-Free Adversarial Detection Using RAG
- [CVPR 2026] MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model