跳转至

CLIP Is Shortsighted: Paying Attention Beyond the First Sentence

会议: CVPR 2026
arXiv: 2602.22419
代码: 待确认
领域: 多模态VLM / 表示学习
关键词: CLIP, 长文本, 注意力偏差, 多模态检索, 预训练

一句话总结

发现CLIP对长描述"只看第一句"的根本原因在于训练数据中长caption普遍以摘要句开头形成捷径,提出DeBias-CLIP通过去除摘要句+句子子采样+token填充来分散监督信号,实现长短文本检索双SOTA。

背景与动机

CLIP通过图文对比学习获得了强大的零样本迁移能力,广泛用于分类、检索、扩散模型和VLM的视觉编码器。然而CLIP预训练数据以短caption为主,模型天然偏向编码简单、突出的物体描述。近期工作尝试用长caption数据集微调来缓解,但忽视了一个关键偏差:无论人写还是LLM生成的长caption,都习惯以一句话摘要开头,后面才是细节描述。

核心问题

CLIP在处理多句描述时,注意力高度集中在开头的摘要句和前几个token上,后续句子的语义几乎被忽略。这不仅是预训练数据短caption偏多的问题,更重要的是长caption数据本身的结构——"先摘要后细节"的格式在训练时充当了捷径(shortcut),模型只需编码第一句就能完成对比匹配,完全没有动力去关注后续句子。这导致CLIP在需要理解复杂多属性描述、空间关系、细粒度差异的场景中严重失效。

方法详解

整体框架

DeBias-CLIP是Long-CLIP的即插即用替代方案,不引入额外可训练参数。核心思路是从训练数据和训练策略两个层面消除"第一句摘要"捷径。

关键设计

1. 摘要句移除(Summary Removal) 在训练时检测并删除长caption的第一句摘要句。这迫使模型必须从细节描述中提取语义,而不是走"只看第一句"的捷径。简单但直接有效。

2. 句子子采样(Sentence Sub-sampling) 从长caption中随机采样句子子集作为训练文本。这样每个训练step模型看到的句子组合都不同,防止模型记住固定的句子位置模式,迫使它学会对每个位置的句子都给予关注。

3. 文本Token填充(Text Token Padding) 对短文本进行padding使其长度与长文本一致。这消除了"短文本=简单任务,长文本=困难任务"的长度偏差,使模型的注意力分配不受文本长度影响。

损失函数/训练策略

延续CLIP标准的对比损失(InfoNCE),在Long-CLIP的长文本微调框架上应用上述三个数据增强策略,无需修改模型架构或增加参数。

实验关键数据

方法 ShareGPT4V长文本检索R@1 COCO短文本检索R@1 句序敏感度↓
Long-CLIP 基线 基线
DeBias-CLIP SOTA(显著提升) 优于Long-CLIP 大幅降低

消融实验要点

  • 摘要句移除是最关键的组件,单独使用即可带来显著提升
  • 句子子采样对句序鲁棒性贡献最大
  • 三个策略组合效果最优,且相互补充而非冗余

亮点 / 我学到了什么

  • "数据格式本身就是偏差源"这个观察非常深刻——不只是数据量或质量的问题,数据的内部结构(摘要+细节)就能创造捷径
  • 解决方案极简但有效,说明很多CLIP的"能力缺陷"其实是训练偏差,而非架构瓶颈
  • 对所有用长文本微调CLIP/VLM的工作都有直接启发:先检查你的caption格式是否在创造捷径

局限性 / 可改进方向

  • 目前只验证了在CLIP框架下的效果,SigLIP等其他对比学习模型是否有同样问题?
  • 摘要句检测依赖启发式规则,对非英文caption可能需要适配
  • 没有讨论这种偏差在diffusion model(文生图)场景下的影响

与相关工作的对比

  • 相比Long-CLIP:不需要额外参数,直接替代,效果更好
  • 相比NegCLIP等组合性改进工作:从数据偏差角度出发而非模型改进,思路更根本
  • 与文本编码器架构改进正交,可以组合使用

与我的研究方向的关联

  • CLIP的短视问题直接影响基于CLIP做open-vocabulary检测/分割的性能上界
  • 在设计视觉-语言对齐训练时,需要审视训练数据的格式偏差
  • DeBias策略的思路可迁移到视频-文本对齐(视频描述也常以摘要开头)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 发现了一个大家用但没人注意到的关键偏差
  • 实验充分度: ⭐⭐⭐⭐ — 消融充分,但缺少更多下游任务验证
  • 写作质量: ⭐⭐⭐⭐⭐ — 问题阐述清晰,motivation极强
  • 对我的价值: ⭐⭐⭐⭐ — 对任何使用CLIP特征的工作都有参考价值