VITRIX-CLIPIN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions¶
会议: NeurIPS 2025
arXiv: 2508.02329
代码: 无
领域: 视觉-语言模型 / 细粒度理解
关键词: CLIP, 细粒度视觉理解, 指令编辑数据, 硬负样本, 长描述
一句话总结¶
提出 CLIP-IN 框架,利用指令编辑数据集作为硬负样本和长描述增强 CLIP 的细粒度视觉理解能力,在 MMVP 等基准上显著提升且不损害零样本性能,集成到 MLLM 中可减少视觉幻觉。
研究背景与动机¶
CLIP 等视觉-语言模型在粗粒度图文对齐上表现出色,但在细粒度视觉理解上存在明显短板:
粗粒度对齐: CLIP 的对比学习倾向于学习高层语义对齐,忽略细微差异
短文本限制: 标准 CLIP 使用短文本描述,丢失丰富的语义细节
缺乏硬负样本: 训练中缺少高度相似但语义不同的图文对
本文的两个核心创新: - 利用图像编辑指令数据集作为天然的硬负样本源 - 引入长描述和旋转位置编码来捕获丰富语义
方法详解¶
整体框架¶
CLIP-IN 包含两个核心创新: 1. 基于指令编辑数据的硬负样本对比学习 2. 融合长描述的旋转位置编码
关键设计¶
-
指令编辑数据作为硬负样本:
- 利用已有的图像编辑数据集(如 InstructPix2Pix)
- 编辑前后的图像对构成天然的硬负样本
- 例如:原图(猫在红色沙发上) vs 编辑图(猫在蓝色沙发上)
- 配对的编辑指令提供语义差异的精确描述
-
对称硬负样本对比损失:
- 不仅让模型匹配正确图文对,还要区分细微编辑差异
- 对称设计:图→文和文→图两个方向都进行硬负样本对比 \(\mathcal{L}_{\text{HN}} = -\log \frac{e^{s(I, T^+)}}{e^{s(I, T^+)} + \sum_k e^{s(I, T_k^-)}}\)
-
长描述 + 旋转位置编码 (RoPE):
- 引入详细的长文本描述(通常 100-300 tokens)
- 标准 CLIP 的文本编码器限于 77 tokens
- 使用 RoPE 扩展上下文长度,保持位置感知能力
损失函数 / 训练策略¶
\[\mathcal{L} = \mathcal{L}_{\text{CLIP}} + \alpha \mathcal{L}_{\text{HN}} + \beta \mathcal{L}_{\text{long}}\]
- \(\mathcal{L}_{\text{CLIP}}\): 标准对比损失(保持零样本能力)
- \(\mathcal{L}_{\text{HN}}\): 硬负样本对比损失(提升细粒度)
- \(\mathcal{L}_{\text{long}}\): 长描述对齐损失
实验关键数据¶
主实验(细粒度视觉理解)¶
| 方法 | MMVP ↑ | Winoground ↑ | ARO-Relation ↑ | SugarCrepe ↑ | IN-1K 零样本 ↑ |
|---|---|---|---|---|---|
| CLIP (ViT-L/14) | 28.5 | 35.2 | 62.8 | 75.3 | 75.5 |
| CLIP + NegCLIP | 32.1 | 38.5 | 68.5 | 78.2 | 74.8 |
| CLIP + SigLIP | 30.8 | 37.1 | 66.2 | 77.5 | 76.2 |
| CLIP + DAC | 35.2 | 40.8 | 70.5 | 80.1 | 74.5 |
| CLIP-IN | 42.8 | 46.5 | 75.8 | 84.5 | 75.8 |
MLLM 集成实验¶
| 视觉编码器 | LLaVA-1.5 MMVP ↑ | LLaVA 幻觉率 ↓ | POPE Acc ↑ | MMBench ↑ |
|---|---|---|---|---|
| CLIP-ViT-L | 32.5 | 45.2 | 83.5 | 64.8 |
| SigLIP | 35.8 | 42.1 | 85.2 | 66.5 |
| CLIP-IN | 45.2 | 32.5 | 88.8 | 68.2 |
消融实验¶
| 组件 | MMVP ↑ | Winoground ↑ | IN-1K ↑ |
|---|---|---|---|
| CLIP-IN 完整 | 42.8 | 46.5 | 75.8 |
| 去掉硬负样本 | 33.5 | 39.2 | 76.1 |
| 去掉长描述 | 38.2 | 43.1 | 75.5 |
| 去掉 RoPE | 36.5 | 41.8 | 75.2 |
| 随机负样本(非指令编辑) | 35.8 | 40.5 | 75.5 |
| 仅用短描述 | 37.2 | 42.5 | 76.0 |
关键发现¶
- CLIP-IN 在 MMVP 上提升 14.3%(28.5 → 42.8),证明硬负样本策略的巨大价值
- 指令编辑数据作为硬负样本远优于随机负样本(+7.0 MMVP)
- 关键:零样本 ImageNet 性能不降反升(75.5 → 75.8),说明细粒度提升不损害通用能力
- 集成到 MLLM 后,视觉幻觉率从 45.2% 降至 32.5%,实际价值显著
亮点与洞察¶
- 数据源创新: 图像编辑数据的"废物利用",低成本获取高质量硬负样本
- 不损害通用性: 在提升细粒度的同时保持零样本能力,这一点难能可贵
- 下游价值: 减少 MLLM 幻觉的效果非常显著,直接提升了实际应用质量
- RoPE 扩展: 优雅地解决了 CLIP 文本长度限制
局限与展望¶
- 指令编辑数据集主要覆盖视觉属性编辑,对抽象概念差异的覆盖不足
- 长描述的生成依赖外部模型,可能引入噪声
- RoPE 虽扩展了长度,但极长文本(>1000 tokens)的效果未验证
- 训练成本高于标准 CLIP 微调
相关工作与启发¶
- NegCLIP: 基于负样本增强 CLIP 理解的先驱
- InstructPix2Pix: 本文使用的图像编辑数据源
- SigLIP: Google 的改进对比学习
- DAC: 描述增强的对比学习
评分¶
| 维度 | 分数 (1-5) |
|---|---|
| 创新性 | 4 |
| 理论深度 | 3 |
| 实验充分性 | 5 |
| 写作质量 | 4 |
| 实用价值 | 5 |
| 总体推荐 | 4.5 |
相关论文¶
- [CVPR 2025] Robotic Visual Instruction
- [NeurIPS 2025] FALCON: Fine-grained Activation Manipulation by Contrastive Orthogonal Unalignment for Large Language Model
- [ACL 2025] CHEER-Ekman: Fine-grained Embodied Emotion Classification
- [ICLR 2026] Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection
- [NeurIPS 2025] Understanding Prompt Tuning and In-Context Learning via Meta-Learning