VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions¶

会议: NeurIPS 2025
arXiv: 2508.02329
代码: 无
领域: 视觉-语言模型 / 细粒度理解
关键词: CLIP, 细粒度视觉理解, 指令编辑数据, 硬负样本, 长描述

一句话总结¶

提出 CLIP-IN 框架，利用指令编辑数据集作为硬负样本和长描述增强 CLIP 的细粒度视觉理解能力，在 MMVP 等基准上显著提升且不损害零样本性能，集成到 MLLM 中可减少视觉幻觉。

研究背景与动机¶

CLIP 等视觉-语言模型在粗粒度图文对齐上表现出色，但在细粒度视觉理解上存在明显短板：

粗粒度对齐: CLIP 的对比学习倾向于学习高层语义对齐，忽略细微差异

短文本限制: 标准 CLIP 使用短文本描述，丢失丰富的语义细节

缺乏硬负样本: 训练中缺少高度相似但语义不同的图文对

本文的两个核心创新： - 利用图像编辑指令数据集作为天然的硬负样本源 - 引入长描述和旋转位置编码来捕获丰富语义

方法详解¶

整体框架¶

CLIP-IN 包含两个核心创新： 1. 基于指令编辑数据的硬负样本对比学习 2. 融合长描述的旋转位置编码

关键设计¶

指令编辑数据作为硬负样本:
- 利用已有的图像编辑数据集（如 InstructPix2Pix）
- 编辑前后的图像对构成天然的硬负样本
- 例如：原图(猫在红色沙发上) vs 编辑图(猫在蓝色沙发上)
- 配对的编辑指令提供语义差异的精确描述
对称硬负样本对比损失:
- 不仅让模型匹配正确图文对，还要区分细微编辑差异
- 对称设计：图→文和文→图两个方向都进行硬负样本对比 \(\mathcal{L}_{\text{HN}} = -\log \frac{e^{s(I, T^+)}}{e^{s(I, T^+)} + \sum_k e^{s(I, T_k^-)}}\)
长描述 + 旋转位置编码 (RoPE):
- 引入详细的长文本描述（通常 100-300 tokens）
- 标准 CLIP 的文本编码器限于 77 tokens
- 使用 RoPE 扩展上下文长度，保持位置感知能力

损失函数 / 训练策略¶

\[\mathcal{L} = \mathcal{L}_{\text{CLIP}} + \alpha \mathcal{L}_{\text{HN}} + \beta \mathcal{L}_{\text{long}}\]

\(\mathcal{L}_{\text{CLIP}}\): 标准对比损失（保持零样本能力）
\(\mathcal{L}_{\text{HN}}\): 硬负样本对比损失（提升细粒度）
\(\mathcal{L}_{\text{long}}\): 长描述对齐损失

实验关键数据¶

主实验（细粒度视觉理解）¶

方法	MMVP ↑	Winoground ↑	ARO-Relation ↑	SugarCrepe ↑	IN-1K 零样本 ↑
CLIP (ViT-L/14)	28.5	35.2	62.8	75.3	75.5
CLIP + NegCLIP	32.1	38.5	68.5	78.2	74.8
CLIP + SigLIP	30.8	37.1	66.2	77.5	76.2
CLIP + DAC	35.2	40.8	70.5	80.1	74.5
CLIP-IN	42.8	46.5	75.8	84.5	75.8

MLLM 集成实验¶

视觉编码器	LLaVA-1.5 MMVP ↑	LLaVA 幻觉率 ↓	POPE Acc ↑	MMBench ↑
CLIP-ViT-L	32.5	45.2	83.5	64.8
SigLIP	35.8	42.1	85.2	66.5
CLIP-IN	45.2	32.5	88.8	68.2

消融实验¶

组件	MMVP ↑	Winoground ↑	IN-1K ↑
CLIP-IN 完整	42.8	46.5	75.8
去掉硬负样本	33.5	39.2	76.1
去掉长描述	38.2	43.1	75.5
去掉 RoPE	36.5	41.8	75.2
随机负样本(非指令编辑)	35.8	40.5	75.5
仅用短描述	37.2	42.5	76.0

关键发现¶

CLIP-IN 在 MMVP 上提升 14.3%（28.5 → 42.8），证明硬负样本策略的巨大价值
指令编辑数据作为硬负样本远优于随机负样本（+7.0 MMVP）
关键：零样本 ImageNet 性能不降反升（75.5 → 75.8），说明细粒度提升不损害通用能力
集成到 MLLM 后，视觉幻觉率从 45.2% 降至 32.5%，实际价值显著

亮点与洞察¶

数据源创新: 图像编辑数据的"废物利用"，低成本获取高质量硬负样本
不损害通用性: 在提升细粒度的同时保持零样本能力，这一点难能可贵
下游价值: 减少 MLLM 幻觉的效果非常显著，直接提升了实际应用质量
RoPE 扩展: 优雅地解决了 CLIP 文本长度限制

局限与展望¶

指令编辑数据集主要覆盖视觉属性编辑，对抽象概念差异的覆盖不足
长描述的生成依赖外部模型，可能引入噪声
RoPE 虽扩展了长度，但极长文本（>1000 tokens）的效果未验证
训练成本高于标准 CLIP 微调

评分¶

维度	分数 (1-5)
创新性	4
理论深度	3
实验充分性	5
写作质量	4
实用价值	5
总体推荐	4.5