Exploring How Generative MLLMs Perceive More Than CLIP with the Same Vision Encoder¶
会议: ACL 2025
arXiv: 2411.05195
代码: GitHub
领域: NLP理解
关键词: CLIP, 多模态LLM, 视觉推理, 空间推理, 对比学习
一句话总结¶
系统探究为何生成式多模态LLM(如LLaVA)使用与CLIP相同的视觉编码器却能在视觉推理任务上大幅超越CLIP,发现patch token、位置编码和prompt加权是关键因素。
研究背景与动机¶
- 领域现状: CLIP在零样本分类上表现出色,但在组合性推理、空间理解、细粒度视觉理解等任务上表现不佳。
- 现有痛点: 人们认为CLIP视觉编码器丢失了关键信息,但生成式MLLM使用相同编码器在这些任务上表现优异,说明问题不在编码器。
- 核心矛盾: 相同的视觉编码器和权重,CLIP提取不到的信息,生成式MLLM却能提取,说明信息提取策略更为关键。
- 本文要解决什么: 找出生成式MLLM优于CLIP的核心设计选择,为改进CLIP类模型提供方向。
- 切入角度: 在What'sUp、Winoground等挑战性基准上进行对照实验,逐一剖析训练数据、token使用、位置编码、语言模型、训练目标等因素。
- 核心idea一句话: 生成式MLLM的优势来自架构设计(patch tokens + RoPE + prompt加权),而非更好的训练数据或更强的文本编码器。
方法详解¶
整体框架¶
以CLIP-ViT-L/14-336px和LLaVA-1.5-7B为核心对比对象,系统评估多个视觉推理基准,然后通过控制变量实验逐一分析因素。
关键设计¶
- Token使用实验: 对比[CLS] token vs patch tokens。使用PACL方式的patch token聚合,pair accuracy在What'sUp上从1.9%提升到9.7%。添加RoPE后进一步提升到22.3%。
- 训练数据实验: 用LLaVA-1.5的训练数据微调CLIP/SigLIP/EVA-CLIP,包括加入hard negative,仍然接近随机水平,说明数据不是关键。
- 文本编码器实验: 使用更强的LLM转换文本编码器(LLM2CLIP),仍不足以解决问题。
- 对比式微调实验: 将LLaVA转换为类CLIP编码器进行对比微调后仍优于CLIP,说明细粒度视觉推理不依赖于自回归损失。
- Prompt作为加权: 问题作为prompt与图像完全融合后,重新加权图像token,显著增强相关信息提取。
评估策略¶
使用VQAScore作为统一评估协议,定义为P("Yes"|image, question),确保生成式MLLM与CLIP的公平比较。同时报告个体准确率和配对准确率。
实验关键数据¶
主实验(What'sUp空间推理)¶
| 模型 | Left/Right Pairs | On/Under Pairs | Front/Behind Pairs |
|---|---|---|---|
| CLIP-ViT-L/14-336px | 1.9% | 23.3% | 7.8% |
| LLaVA-1.5-7B | 93.2% | 52.4% | 52.9% |
| Phi-3-V-3.8B | 95.1% | 58.3% | 26.5% |
| LLaMA-3-V-8B | 96.1% | 64.1% | 47.1% |
| 随机基线 | 25.0% | 25.0% | 25.0% |
消融实验(CLIP + 各种改进)¶
| 配置 | What'sUp A Pairs | What'sUp B Pairs |
|---|---|---|
| CLIP原始 | 1.9% | 10.8% |
| + Patch Tokens | 9.7% | 9.8% |
| + PT + RoPE | 22.3% | 20.6% |
| + PT + RoPE + 多文本token | 0.0% | 6.9% |
| + PT + RoPE + 更强文本编码器 | 10.7% | 15.7% |
关键发现¶
- Patch tokens比[CLS] token提供更丰富的空间信息
- RoPE位置编码对空间推理至关重要
- 仅靠更强文本编码器或更多训练数据不够
- MLLM转对比式后仍保持优势,说明架构本身就具备优势
亮点与洞察¶
- 颠覆性发现:CLIP视觉编码器其实保留了足够的视觉信息,问题在于信息提取方式
- 精心设计的对照实验,逐一排除因素,方法论值得学习
- 细粒度推理不是生成模型独有的能力,对比模型也可以通过架构改进获得
局限性 / 可改进方向¶
- 主要聚焦于What'sUp空间推理,其他视觉推理任务的泛化性待验证
- 对照实验中freeze了视觉编码器,未充分探索解冻后的效果
- 改进后的CLIP在绝对性能上仍与MLLM有差距
相关工作与启发¶
- 与NegCLIP、SPARC等改进CLIP的工作互补
- 对VLM设计(如下一代CLIP模型)有直接指导意义
- 启发:架构选择可能比训练数据规模更重要
技术细节补充¶
- VQAScore定义:\(P(\text{"Yes"} | \text{image}, \text{"Does this figure show 'text'? Please answer yes or no."})\)
- CLIP使用[CLS] token + cosine similarity进行图文匹配
- LLaVA架构:CLIP视觉编码器的patch tokens → 2层MLP连接器 → 生成式语言模型
- 对比微调实验:将LLaVA的hidden states通过投影层映射到对比嵌入空间
- SigLIP解冻视觉编码器微调后仍无改善,进一步排除了编码器本身作为瓶颈的可能
评分¶
- 新颖性: ⭐⭐⭐⭐ 视角新颖,首次系统阐明CLIP vs MLLM差异的根因
- 实验充分度: ⭐⭐⭐⭐⭐ 控制变量实验设计严谨,覆盖多个基准
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,roadmap式实验展示易于跟随
- 价值: ⭐⭐⭐⭐ 对VLM架构设计有实际指导价值