Exploring How Generative MLLMs Perceive More Than CLIP with the Same Vision Encoder¶

会议: ACL 2025
arXiv: 2411.05195
代码: GitHub
领域: NLP理解
关键词: CLIP, 多模态LLM, 视觉推理, 空间推理, 对比学习

一句话总结¶

系统探究为何生成式多模态LLM（如LLaVA）使用与CLIP相同的视觉编码器却能在视觉推理任务上大幅超越CLIP，发现patch token、位置编码和prompt加权是关键因素。

领域现状: CLIP在零样本分类上表现出色，但在组合性推理、空间理解、细粒度视觉理解等任务上表现不佳。
现有痛点: 人们认为CLIP视觉编码器丢失了关键信息，但生成式MLLM使用相同编码器在这些任务上表现优异，说明问题不在编码器。
核心矛盾: 相同的视觉编码器和权重，CLIP提取不到的信息，生成式MLLM却能提取，说明信息提取策略更为关键。
本文要解决什么: 找出生成式MLLM优于CLIP的核心设计选择，为改进CLIP类模型提供方向。
切入角度: 在What'sUp、Winoground等挑战性基准上进行对照实验，逐一剖析训练数据、token使用、位置编码、语言模型、训练目标等因素。
核心idea一句话: 生成式MLLM的优势来自架构设计（patch tokens + RoPE + prompt加权），而非更好的训练数据或更强的文本编码器。

以CLIP-ViT-L/14-336px和LLaVA-1.5-7B为核心对比对象，系统评估多个视觉推理基准，然后通过控制变量实验逐一分析因素。

Token使用实验: 对比[CLS] token vs patch tokens。使用PACL方式的patch token聚合，pair accuracy在What'sUp上从1.9%提升到9.7%。添加RoPE后进一步提升到22.3%。
训练数据实验: 用LLaVA-1.5的训练数据微调CLIP/SigLIP/EVA-CLIP，包括加入hard negative，仍然接近随机水平，说明数据不是关键。
文本编码器实验: 使用更强的LLM转换文本编码器（LLM2CLIP），仍不足以解决问题。
对比式微调实验: 将LLaVA转换为类CLIP编码器进行对比微调后仍优于CLIP，说明细粒度视觉推理不依赖于自回归损失。
Prompt作为加权: 问题作为prompt与图像完全融合后，重新加权图像token，显著增强相关信息提取。

使用VQAScore作为统一评估协议，定义为P("Yes"|image, question)，确保生成式MLLM与CLIP的公平比较。同时报告个体准确率和配对准确率。

模型	Left/Right Pairs	On/Under Pairs	Front/Behind Pairs
CLIP-ViT-L/14-336px	1.9%	23.3%	7.8%
LLaVA-1.5-7B	93.2%	52.4%	52.9%
Phi-3-V-3.8B	95.1%	58.3%	26.5%
LLaMA-3-V-8B	96.1%	64.1%	47.1%
随机基线	25.0%	25.0%	25.0%

VQAScore定义：\(P(\text{"Yes"} | \text{image}, \text{"Does this figure show 'text'? Please answer yes or no."})\)
CLIP使用[CLS] token + cosine similarity进行图文匹配
LLaVA架构：CLIP视觉编码器的patch tokens → 2层MLP连接器 → 生成式语言模型
对比微调实验：将LLaVA的hidden states通过投影层映射到对比嵌入空间
SigLIP解冻视觉编码器微调后仍无改善，进一步排除了编码器本身作为瓶颈的可能