CLIP Is Shortsighted: Paying Attention Beyond the First Sentence¶

会议: CVPR 2026
arXiv: 2602.22419
代码: 待确认
领域: 多模态VLM / 表示学习
关键词: CLIP, 长文本, 注意力偏差, 多模态检索, 预训练

一句话总结¶

发现CLIP对长描述"只看第一句"的根本原因在于训练数据中长caption普遍以摘要句开头形成捷径，提出DeBias-CLIP通过去除摘要句+句子子采样+token填充来分散监督信号，实现长短文本检索双SOTA。

背景与动机¶

CLIP通过图文对比学习获得了强大的零样本迁移能力，广泛用于分类、检索、扩散模型和VLM的视觉编码器。然而CLIP预训练数据以短caption为主，模型天然偏向编码简单、突出的物体描述。近期工作尝试用长caption数据集微调来缓解，但忽视了一个关键偏差：无论人写还是LLM生成的长caption，都习惯以一句话摘要开头，后面才是细节描述。

核心问题¶

CLIP在处理多句描述时，注意力高度集中在开头的摘要句和前几个token上，后续句子的语义几乎被忽略。这不仅是预训练数据短caption偏多的问题，更重要的是长caption数据本身的结构——"先摘要后细节"的格式在训练时充当了捷径（shortcut），模型只需编码第一句就能完成对比匹配，完全没有动力去关注后续句子。这导致CLIP在需要理解复杂多属性描述、空间关系、细粒度差异的场景中严重失效。

方法详解¶

整体框架¶

DeBias-CLIP是Long-CLIP的即插即用替代方案，不引入额外可训练参数。核心思路是从训练数据和训练策略两个层面消除"第一句摘要"捷径。

关键设计¶

1. 摘要句移除（Summary Removal） 在训练时检测并删除长caption的第一句摘要句。这迫使模型必须从细节描述中提取语义，而不是走"只看第一句"的捷径。简单但直接有效。

2. 句子子采样（Sentence Sub-sampling） 从长caption中随机采样句子子集作为训练文本。这样每个训练step模型看到的句子组合都不同，防止模型记住固定的句子位置模式，迫使它学会对每个位置的句子都给予关注。

3. 文本Token填充（Text Token Padding） 对短文本进行padding使其长度与长文本一致。这消除了"短文本=简单任务，长文本=困难任务"的长度偏差，使模型的注意力分配不受文本长度影响。

损失函数/训练策略¶

延续CLIP标准的对比损失（InfoNCE），在Long-CLIP的长文本微调框架上应用上述三个数据增强策略，无需修改模型架构或增加参数。

实验关键数据¶

方法	ShareGPT4V长文本检索R@1	COCO短文本检索R@1	句序敏感度↓
Long-CLIP	基线	基线	高
DeBias-CLIP	SOTA（显著提升）	优于Long-CLIP	大幅降低

消融实验要点¶

摘要句移除是最关键的组件，单独使用即可带来显著提升
句子子采样对句序鲁棒性贡献最大
三个策略组合效果最优，且相互补充而非冗余

亮点 / 我学到了什么¶

"数据格式本身就是偏差源"这个观察非常深刻——不只是数据量或质量的问题，数据的内部结构（摘要+细节）就能创造捷径
解决方案极简但有效，说明很多CLIP的"能力缺陷"其实是训练偏差，而非架构瓶颈
对所有用长文本微调CLIP/VLM的工作都有直接启发：先检查你的caption格式是否在创造捷径

局限性 / 可改进方向¶

目前只验证了在CLIP框架下的效果，SigLIP等其他对比学习模型是否有同样问题？
摘要句检测依赖启发式规则，对非英文caption可能需要适配
没有讨论这种偏差在diffusion model（文生图）场景下的影响

与相关工作的对比¶

相比Long-CLIP：不需要额外参数，直接替代，效果更好
相比NegCLIP等组合性改进工作：从数据偏差角度出发而非模型改进，思路更根本
与文本编码器架构改进正交，可以组合使用

与我的研究方向的关联¶

CLIP的短视问题直接影响基于CLIP做open-vocabulary检测/分割的性能上界
在设计视觉-语言对齐训练时，需要审视训练数据的格式偏差
DeBias策略的思路可迁移到视频-文本对齐（视频描述也常以摘要开头）

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 发现了一个大家用但没人注意到的关键偏差
实验充分度: ⭐⭐⭐⭐ — 消融充分，但缺少更多下游任务验证
写作质量: ⭐⭐⭐⭐⭐ — 问题阐述清晰，motivation极强
对我的价值: ⭐⭐⭐⭐ — 对任何使用CLIP特征的工作都有参考价值