FineLIP: Extending CLIP's Reach via Fine-Grained Alignment with Longer Text Inputs¶

会议: CVPR 2025
arXiv: 2504.01916
代码: https://github.com/tiiuae/FineLIP
领域: 多模态VLM
关键词: CLIP扩展, 长文本, 细粒度对齐, token级对比, 检索

一句话总结¶

提出 FineLIP，通过位置嵌入拉伸支持 248 token 长文本输入，并引入自适应 token 细化和跨模态 token 级对齐，在长描述文本的检索和文生图任务上显著超越 SOTA。

领域现状：CLIP 限制为 77 token，无法处理丰富详细的长描述；且全局特征对齐无法捕捉细粒度的视觉-文本对应关系。

现有痛点：Long-CLIP、TULIP 等方法扩展了 token 长度但仍仅用全局特征对齐；FILIP、SPARC 等细粒度方法仅针对短文本且只细化视觉表示。

核心 idea：拉伸位置嵌入支持长文本 + 同时对视觉和文本 token 进行自适应聚合 + token 级跨模态精细对齐。

位置嵌入拉伸：保留前 20 个位置嵌入（训练充分），其余用自适应插值拉伸 4 倍达到 248 token
自适应 Token 细化模块（ATRM）：对视觉和文本 token 分别用可学习聚合矩阵压缩（保留 20% 信息密度更高的 token），减少冗余和歧义
跨模态晚期交互（CLIM）：用 max-pooling 双向相似度 + triplet marginal loss 实现 token 级跨模态精细对齐

使用 Triplet Marginal Loss 替代标准对比损失，margin α=0.2。保留全局 token（CLS/EOS）参与损失计算，实现跨粒度对齐。

数据集	指标	FineLIP	Long-CLIP	TULIP
Urban1k	I2T R@1	0.918	~0.86	0.881
DOCCI	T2I R@1	0.814	~0.77	-