CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally¶

会议: ICLR 2026 arXiv: 2502.03566 代码: GitHub 领域: 机器人 关键词: CLIP, compositionality, bag-of-words, attribute-object binding, cross-modal alignment

一句话总结¶

通过线性探测实验证明 CLIP 的 BoW（词袋）行为并非源于编码器缺乏绑定信息，而是跨模态对齐的失败；提出 LABCLIP，仅训练一个轻量线性变换即可显著恢复属性-对象绑定能力。

领域现状: CLIP 作为视觉-语言模型的基础组件被广泛使用，但已有研究（ARO, SugarCrepe 等）表明 CLIP 在组合性理解上表现差，常像 BoW 模型一样无法区分"红色方块和蓝色三角形"与"蓝色方块和红色三角形"。
现有痛点: 此前工作仅在跨模态（图像-文本匹配）层面评估 BoW 行为，无法区分问题来源——是编码器本身缺乏绑定信息，还是跨模态对齐不够好。
核心矛盾: 如果问题在编码器，需要重训;如果问题仅在对齐，轻量调整即可修复。诊断原因对改进方向有决定性影响。
本文要解决什么: 定位 CLIP BoW 行为的根本原因，并据此提出最小代价的修复方案。
切入角度: 分别在图像和文本模态内部（单模态）评估属性-对象绑定信息是否存在。
核心idea一句话: CLIP 的单模态嵌入已编码了正确的属性绑定，只是跨模态对齐没有保留这些信息——一个线性变换就能修复。

三阶段论证：(1) 确认 CLIP 跨模态是 BoW → (2) 证明单模态不是 BoW → (3) 用线性变换修复跨模态对齐。

单模态线性探测: 对每个对象 $o \in \mathcal{O}$ 训练独立的线性分类器，从冻结 CLIP 嵌入中预测该对象的属性： $$\text{image-probe}_o: f_{\text{image}}(\mathbf{x}^{\text{img}}) \mapsto a, \quad \text{text-probe}_o: f_{\text{text}}(\mathbf{x}^{\text{txt}}) \mapsto a$$ 在 CLEVR 上图像端达 0.96、文本端达 1.00 的准确率（随机基线 0.12），证明绑定信息已线性可分。
多对象鲁棒性: 增加场景中对象数量后，文本探测准确率稳定在 0.8 以上，图像端从 0.9 降至 0.6 但仍远高于随机。
联合搜索实验: 在充满干扰物的图像中（绿色球体+红色方块），线性分类器能准确检测"不协调"对象（如红色球体），准确率 >0.80 即使 35 个对象，而零样本分类完全随机——证明图像嵌入不是纯 BoW。
LABCLIP: 对文本嵌入施加线性变换 $\mathbf{A} \in \mathbb{R}^{D \times D}$： $$\langle f_{\text{image}}(\mathbf{x}^{\text{img}}), \mathbf{A} f_{\text{text}}(\mathbf{x}^{\text{txt}}) \rangle$$ 从单位矩阵初始化，用属性置换产生的负样本进行对比学习训练。训练比 NegCLIP 快 100 倍以上。

合成数据集跨模态绑定准确率:

模型	CLEVR	PUG:SPAR	PUG:SPARE
CLIP (随机级别)	0.58	0.53	0.50
LABCLIP	0.95	0.97	0.94
CLIP-FT (上界)	1.00	1.00	1.00

真实世界基准 (ARO + SugarCrepe):

模型	VG-A	VG-R	Replace	Swap	COCO R@1
CLIP	0.63	0.63	0.80	0.62	0.30
NegCLIP	0.71	0.81	0.85	0.75	0.41
LABCLIP	0.69	0.82	0.82	0.74	0.41

线性探测 probe 权重相似度（对齐前 vs 后）: