跳转至

CLIP Is Shortsighted: Paying Attention Beyond the First Sentence

会议: CVPR2026 arXiv: 2602.22419 代码: TRAILab/DeBias-CLIP 领域: 语义分割 / 视觉-语言对齐 关键词: CLIP, 长文本检索, 文本-图像对齐, 对比学习, 位置偏差, 数据增强

一句话总结

揭示 CLIP 系列模型对长文本中首句摘要和早期 token 的系统性偏差,提出 DeBias-CLIP 通过去除摘要句、句子子采样和 token 填充三种文本增强策略消除该偏差,在不引入额外参数的条件下实现长/短文本检索 SOTA。

研究背景与动机

  1. CLIP 短文本训练偏差:CLIP 模型在互联网规模的图文对上训练,训练数据以短标注(平均 13–16 tokens)为主,导致模型主要编码图像中显著物体的简单描述,对复杂场景和密集描述的对齐能力不足。
  2. 上下文窗口限制:原始 CLIP 文本编码器的 token 上限为 77(约 3–4 句话),无法完整编码段落级文本,限制了细粒度场景理解。
  3. 长文本微调的局限:Long-CLIP 等方法通过拉伸位置编码并在长标注数据上微调来扩展上下文窗口,但未解决根本性的偏差问题。
  4. 首句摘要捷径:无论是人工还是 LLM 生成的长标注,通常以一句总结性摘要开头。这种结构使模型可以仅依赖首句就最小化对比损失,形成"捷径学习"。
  5. 早期 token 偏差的实证:实验表明,在信息性 token 前插入无意义填充句即显著降低检索性能,证实 CLIP 系统性地偏好序列早期位置的信息。
  6. 句子置换敏感性:交换长标注的第一和第四句后,Long-CLIP 在 DOCCI 上 T2I 检索下降 9.7%;移除首句更是下降 17.1%,说明现有模型严重依赖摘要句的存在和位置。

方法详解

整体框架

DeBias-CLIP 沿用 Long-CLIP 的双编码器架构,将预训练 CLIP 的文本位置编码从 77 扩展到 248 tokens(冻结前 20 个位置,其余线性插值 4 倍)。训练使用两个对比损失分别对齐长标注和短标注与图像特征,核心创新在于短标注的构造策略。

关键设计

(1)去除摘要句(Summary Removal) 将短标注定义为长标注去掉第一句摘要后的内容 \(C^{\text{no\_sum}} = [s_2, \dots, s_k]\),迫使模型关注标注中更深层的细粒度细节,而非依赖信息密集的首句摘要作为捷径。

(2)句子子采样(Sentence Sub-sampling) 从去除摘要后的句子集合中随机无放回采样 \(n_{\text{sampled}} \sim \mathcal{U}\{1, \dots, n_{\text{sents}}-1\}\) 个句子,不维持原始句序。这以极低成本引入训练变化,增大长短标注间的差异性,鼓励模型对文本各处细节保持敏感。

(3)Token 填充(Token Padding) 将标注后方的填充 token 随机分配一部分到标注前方(SOT 之后),即 \(n_{\text{pre}} \sim \mathcal{U}\{0, \dots, n_{\text{post}}\}\)。这使有效文本出现在不同的位置编码处,训练更均匀的位置嵌入,同时保持短文本检索性能。

最终的 tokenized 短标注形式为:\(T^s_{\text{ours}} = [\text{SOT}, \text{PAD}_{\text{pre}}, s_4, s_2, \text{EOT}, \text{PAD}_{\text{post}}]\)

损失函数

采用双对比损失的加权和:

\[\mathcal{L} = \lambda^s \mathcal{L}^s + (1 - \lambda^s) \mathcal{L}^\ell\]

其中 \(\mathcal{L}^s\) 为短标注(采样+填充后)对齐损失,\(\mathcal{L}^\ell\) 为完整长标注对齐损失。短标注使用 PCA 压缩后的图像特征。最佳权重 \(\lambda^s = 0.1\),提供短/长检索间的最优平衡。

实验

基本设置

  • 训练数据:ShareGPT4V(1.2M 图文对)
  • 预训练权重:OpenAI CLIP(默认)
  • 训练:3 epochs,batch size 256,4×A100 GPU
  • 评估:Urban1k、DCI、Long-DCI、DOCCI(长文本),COCO、Flickr30k(短文本)

长文本检索结果

方法 Urban1k T2I / I2T DCI T2I / I2T DOCCI T2I / I2T
CLIP (ViT-B/16) 53.4 / 67.5 42.9 / 44.1 57.1 / 60.6
Long-CLIP 79.5 / 78.9 57.1 / 51.6 71.4 / 63.1
SmartCLIP 87.4 / 90.0 64.0 / 64.9 78.0 / 77.4
DeBias-CLIP 93.0 / 93.1 67.6 / 68.5 80.0 / 79.7
CLIP (ViT-L/14) 56.1 / 68.5 43.8 / 44.8 63.0 / 65.8
Long-CLIP 86.0 / 82.5 63.9 / 57.0 78.6 / 66.5
SmartCLIP 90.1 / 93.3 69.8 / 68.2 82.5 / 81.6
DeBias-CLIP 95.2 / 95.2 73.5 / 72.8 85.6 / 85.2

短文本检索结果

方法 (ViT-B/16) COCO T2I / I2T Flickr30k T2I / I2T
Long-CLIP 40.4 / 57.6 34.1 / 46.8
SmartCLIP 42.4 / 61.9 36.3 / 55.6
DeBias-CLIP 43.0 / 61.3 36.9 / 57.0

消融实验

配置 COCO T2I Flickr T2I Urban1k T2I DOCCI T2I
Long-CLIP 40.4 34.1 79.5 71.4
+ 3 epochs 39.6 33.1 81.0 74.1
+ 去除摘要句 42.2 36.0 92.6 80.9
+ 句子子采样 41.9 36.1 92.5 80.8
+ Token 填充(完整版) 43.0 36.9 93.0 79.7

关键发现

  • 去除摘要句是核心贡献:仅去除首句摘要即可将 Urban1k T2I 从 81.0 提升至 92.6(+11.6%),DOCCI 从 74.1 提升至 80.9(+6.8%)。
  • 子采样+填充互补:句子子采样和 token 填充主要提升短文本检索(COCO +1.1%, Flickr +0.9%),长文本上略有波动但整体保持。
  • 注意力分布更均匀:Long-CLIP 的注意力权重在早期 token 处出现尖峰后快速衰减,DeBias-CLIP 在所有 token 位置上维持更平坦的注意力分布。
  • 泛化性强:方法在 OpenAI CLIP、OpenCLIP (LAION-2B)、SigLIP、SigLIP2 等不同预训练模型上均有效,句子置换下的性能下降从 Long-CLIP 的 −9.7% 缩减至 −3.5%。

亮点

  • 洞察深刻:系统性地揭示了 CLIP 模型的早期 token 偏差和摘要句捷径,并提供了充分的实验验证。
  • 极致简洁:零额外参数、零额外训练阶段,仅通过训练时的文本采样策略即可大幅提升性能,是 Long-CLIP 的即插即用替换。
  • 全面评估:覆盖 4 个长文本和 2 个短文本基准,横跨 ViT-B/16 和 ViT-L/14 两个尺度、4 种预训练模型,消融和鲁棒性分析充分。
  • 实用价值高:改善了检索对句子顺序的鲁棒性,更适合真实场景(如 RAG 管线中文档片段的检索)。

局限性

  • 长文本评估基准(Urban1k、DCI、DOCCI)均采用相同的"摘要-细节"结构,可能掩盖模型在其他长文本格式上的真实表现。
  • 论文将句子视为独立语义单元进行采样,忽略了跨句上下文依赖,可能丢失需要多句联合理解的信息。
  • 对 SigLIP/SigLIP2 等更强预训练模型,句子置换后的性能下降仍有 −6.1%/−6.5%,位置偏差未被完全消除。
  • 仅在 ShareGPT4V (1.2M) 上微调,未探索更大规模数据集或从头训练的场景。

相关工作

  • Long-CLIP (ECCV'24):通过拉伸位置编码和双损失扩展 CLIP 上下文窗口,但保留了摘要句偏差。
  • SmartCLIP (CVPR'25):学习文本条件通道掩码网络,引入额外参数,从摘要句开始采样句子。
  • FineLIP (CVPR'25):添加跨模态特征精炼模块,推理时需要额外计算。
  • TULIP (ICLR'25):用旋转位置编码替换插值方案,但需两阶段训练。
  • Fix-CLIP (ICCV'25):使用 token 掩码和局部聚合 token 保持短文本性能。

评分

  • 新颖性: ⭐⭐⭐⭐ — 对 CLIP 偏差的分析视角新颖,但方法本身属于训练数据增强的范畴
  • 实验充分度: ⭐⭐⭐⭐⭐ — 多数据集、多模型、多尺度、消融和鲁棒性分析全面详尽
  • 写作质量: ⭐⭐⭐⭐⭐ — 逻辑清晰,从问题分析到方法设计的展开自然流畅
  • 价值: ⭐⭐⭐⭐ — 零额外参数的即插即用方案具有很高的实用价值,对社区理解 CLIP 偏差有启发意义