CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation¶

会议: CVPR 2025
arXiv: 2502.19842
代码: https://clip-oscope.github.io/
领域: 图像生成
关键词: CLIP偏差分析、多目标表征、文本编码器偏差、对比学习、ComCO数据集

一句话总结¶

系统揭示 CLIP 在多目标场景中的两类偏差——文本编码器偏向先提到的物体、图像编码器偏向大物体，并追溯偏差根源至对比训练过程中训练数据里大物体被先提到的统计规律。

领域现状：CLIP 广泛用于图文对齐、检索、生成引导等任务。虽然已知 CLIP 在组合理解上有不足，但其多目标表征的具体偏差模式尚未被系统分析。

现有痛点：(1) 多目标场景中 CLIP 的 text embedding 是否忠实编码了所有物体？(2) image embedding 是否均匀表征了不同大小的物体？(3) 这些偏差从何而来？现有工作只关注二目标场景的大致现象，缺乏精细量化和根因分析。

核心矛盾：CLIP 应该学到通用的视觉-语言对齐，但其训练数据中存在"大物体先被提到"的统计偏差，对比学习将图像编码器的大小偏差传导到了文本编码器的位置偏差。

本文目标 用可控的合成数据集（ComCO）精细量化 CLIP 的多目标偏差，追溯偏差根源，并指出缓解方向。

切入角度：在 Blender 中渲染大小/位置/数量可控的多物体场景（72 种 COCO 物体），设计 Text-based Object Retrieval（TOR）和 Image-based Object Retrieval（IOR）两套指标分别量化文本和图像编码器的偏差。

核心 idea：用可控合成数据揭示 CLIP 文本编码器的"先入为主"偏差和图像编码器的"大者为王"偏差，并追溯至训练数据中物体大小与提及顺序的统计关联。

ComCO 数据集（Blender 渲染 2-5 个物体的场景）→ TOR 评估（多物体文本 vs 各单物体文本的余弦相似度排名）→ IOR 评估（多物体图像 vs 各单物体图像的余弦相似度排名）→ LAION 数据分析追溯训练偏差。

Text-based Object Retrieval (TOR):
- 功能：量化文本编码器对不同位置物体的关注度
- 核心思路：给定多物体描述"a horse, a dog, a cat"，计算其 embedding 与"a horse"/"a dog"/"a cat"各自 embedding 的余弦相似度。如果编码器无偏差，各物体应获得相等的相似度
- 设计动机：CLIP LAION 模型中第 1 个物体获得 63.96% 的检索概率，第 4 个仅 3.76%——严重的"先入为主"
Image-based Object Retrieval (IOR):
- 功能：量化图像编码器对不同大小物体的关注度
- 核心思路：给定包含一大三小物体的图像，计算其 embedding 与各单物体图像 embedding 的余弦相似度
- 设计动机：大物体获 85.45% 检索概率，三个小物体分别仅 6.36/5.45/2.73%——CLS token 注意力集中在大物体
偏差根源追溯:
- 功能：解释为什么 CLIP 有这些偏差
- 核心思路：分析 LAION 训练数据发现：(a) 面积更大的物体在 caption 中被更早提到（统计显著）；(b) 对比学习的损失函数理论上可以收敛到仅编码部分物体的不完整表征（给出数学证明）；(c) 训练过程中偏差随训练步数加剧（5 个 checkpoint 验证）
- 设计动机：SBERT/SimCSE 作为对照实验——它们不做对比图文训练，显示相反的偏差（偏向最后物体），证明偏差确实来自 CLIP 的对比训练过程

纯分析论文，不涉及训练。NegCLIP/SugarCrepe 等硬负样本训练方法可减轻但不能消除偏差。

模型	TOR 第1物体	TOR 第4物体	IOR 大物体	IOR 小物体
CLIP LAION	63.96%	3.76%	85.45%	6.36%
CLIP OpenAI	50.31%	6.79%	-	-
NegCLIP	-	-	61.67%	15.00%
SugarCrepe	44.29%	6.66%	-	-