EVEv2: Improved Baselines for Encoder-Free Vision-Language Models¶
会议: ICCV 2025 (Highlight)
arXiv: 2502.06788
代码: https://github.com/baaivision/EVE
领域: 多模态VLM / 无编码器架构
关键词: encoder-free VLM, Divide-and-Conquer, 模态稀疏, decoder-only, 视觉感知从零学习
一句话总结¶
系统性地探索无视觉编码器VLM的最优架构和训练策略,提出Divide-and-Conquer架构将transformer完全分解为模态专用组件(attention/FFN/LayerNorm各模态独立),在仅100M公开数据下超越所有encoder-free同类并接近encoder-based VLM性能。
背景与动机¶
主流VLM(如LLaVA/InternVL)依赖预训练视觉编码器(如CLIP-ViT),但编码器带来分辨率/宽高比的惯性偏置、复杂的多组件协调需求、以及独立scaling的困难。Encoder-free VLM(如Fuyu/EVEv1)直接让一个统一的decoder-only模型从零学习视觉感知,结构更简洁。但挑战在于:(1) 从零学习视觉感知需要大量数据和计算;(2) 视觉和语言在同一个模型中可能产生表示干扰——简单的权重共享或MoE解耦不够充分。
核心问题¶
如何让encoder-free VLM高效地从零学习视觉感知,同时最小化视觉和语言模态之间的表示干扰?
方法详解¶
整体框架¶
EVEv2.0基于Qwen2.5-7B LLM,用简单的双层卷积做patch embedding(stride 16+2),然后将visual tokens和text tokens一起送入一个完全模态稀疏的decoder-only transformer。四阶段训练:(1)预对齐patch embedding → (2)冻结LLM训练视觉层 → (3)全模型QA微调 → (4)指令微调。
关键设计¶
-
Divide-and-Conquer(完全模态解耦)架构:不同于EVEv1的密集模型、EVEv1.2的重参数化、EVEv1.5的MoE解耦FFN,EVEv2.0在每一层的所有组件上引入模态分组:Query/Key/Value矩阵、输出投影、LayerNorm、FFN都有独立的视觉版和文本版参数。总参数量2×7B但每个token的活跃FLOPs等于7B dense。关键发现是LayerNorm的模态干扰最严重(LLM→VLM的权重变化最大),必须完全解耦。
-
DenseFusion++标注引擎:用LLaVA-1.6(7B)融合多个视觉专家(Tag/Detection/OCR等),学习GPT-4V的融合策略,生成超详细的图像描述。比前代LLaVA-1.5(13B)+Emu2(17B)组合更好,且单节点8卡A100每天可标注70万张。这使得EVEv2.0只需100M公开数据就能达到强效果。
-
渐进式四阶段训练:Stage1仅训练patch embedding(对齐初始化)→ Stage2.1冻结LLM训练视觉层学习视觉感知(低分辨率→高分辨率渐进)→ Stage2.2全参数QA微调增强多模态对齐→ Stage3指令微调。视觉层从LLM权重初始化,保证训练开始时文本能力不损失。
损失函数 / 训练策略¶
- 标准交叉熵自回归loss
- 数据规模:44M Datacomp + 15M LAION + 11M SA-1B + 7M OpenImages(预训练);15M multi-task(QA);7.3M指令微调
- 16节点128卡A100训练
- 分辨率从800×800渐进到1600×1600,最大2500 patch tokens
实验关键数据¶
| 模型 | 类型 | 参数 | MMMU | MMBench | TextVQA | ChartQA | AI2D | OCRBench |
|---|---|---|---|---|---|---|---|---|
| LLaVA-1.5 | encoder | 7B | 35.3 | 64.3 | 46.1 | 18.2 | 54.8 | 318 |
| LLaVA-1.6 | encoder | 7B | 35.1 | 67.4 | 64.9 | 54.8 | 66.6 | 532 |
| Cambrian | encoder | 7B | 42.7 | 75.9 | 71.7 | 73.3 | 73.0 | 614 |
| Fuyu | enc-free | 8B | 27.9 | 10.7 | - | - | 64.5 | 366 |
| EVEv1 | enc-free | 7B | 32.6 | 52.3 | 56.8 | 59.1 | 61.0 | 398 |
| Mono-InternVL | enc-free | 1.8B | 33.7 | 65.5 | 72.6 | 73.7 | 68.6 | 767 |
| EVEv2.0 | enc-free | 7B | 39.3 | 66.3 | 71.1 | 73.9 | 74.8 | 702 |
- 超越所有encoder-free方法(除Mono-InternVL在部分指标上更强,但其用13x更多数据)
- 接近LLaVA-1.6和Cambrian等encoder-based方法
- ScienceQA达96.2%,超越大部分encoder-based方法
- 数据效率:100M数据 vs Mono-InternVL的1.3B数据
消融实验要点¶
- DaC > MoE > ReP > Dense:完全解耦在24M数据下比MoE高1.4%,且差距随数据增多而扩大
- DenseFusion++标注引擎 > LLaVA-1.5+Emu2标注 > Raw web captions
- 多源数据混合(Datacomp+LAION+SA1B+OpenImages)远优于单源
- LayerNorm是最需要解耦的模块(仅解耦LN即可获得明显提升)
- 推理速度:EVEv2.0 TTFT仅比EVEv1.0多13%,TPS相同(35 tok/s)
亮点¶
- ICCV Highlight,系统性研究的典范:不是追求SOTA而是系统性地回答"encoder-free VLM的最优路径是什么"
- Divide-and-Conquer架构:完全模态解耦是encoder-free VLM的关键突破——简单但有效,通过量化分析(LLM vs VLM权重变化)给出充分动机
- DenseFusion++标注引擎的高效性:7B模型标注质量超越13B+17B组合,可规模化
- 数据效率出色:100M公开数据达到需要1.3B数据的Mono-InternVL的可比水平
- 透明和可复现:所有数据公开、代码开源、训练细节详尽
局限性 / 可改进方向¶
- 因计算资源限制,未充分探索更大模型(>7B)和更多数据的scaling
- 知识密集型任务(MMMU)仍落后于encoder-based方法
- 文档理解任务(DocVQA等)有一定差距
- 2×7B参数的存储需求高于标准7B模型
- 尚未扩展到音频/视频模态
与相关工作的对比¶
- vs. EVEv1:EVEv1用单个dense模型+视觉监督;EVEv2完全解耦+DenseFusion++,无需视觉监督,性能大幅提升
- vs. Mono-InternVL:Mono-InternVL仅解耦FFN(MoE),EVEv2完全解耦所有组件;但Mono-InternVL用13x更多数据
- vs. Scaling Language-Free Visual Repr:Web-SSL证明SSL可以匹配CLIP;EVEv2证明全零学习的视觉encoder也可以匹配预训练encoder——两者方向互补
- vs. FALCON:FALCON在encoder内部用register压缩高分辨率token;EVEv2从根本上去掉encoder
启发与关联¶
- idea潜力:完全模态解耦的思路可以扩展到三模态(视觉/文本/音频)的native multimodal model
- Divide-and-Conquer与Dynamic-DINO的MoE方法可以结合——在decoder-only架构中使用模态感知的细粒度专家
- DenseFusion++标注引擎的思路对数据工程领域有重要参考价值
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 完全模态解耦是encoder-free VLM的范式性突破,LayerNorm必须解耦的发现很深刻
- 实验充分度: ⭐⭐⭐⭐⭐ 13个benchmark、4种架构变体(v1.0/1.2/1.5/2.0)、数据源/标注引擎/训练策略逐项消融
- 写作质量: ⭐⭐⭐⭐⭐ 系统性研究的写作标杆,Figure 2的权重变化量化分析和Figure 5的scaling对比极具说服力
- 价值: ⭐⭐⭐⭐⭐ Highlight当之无愧,为encoder-free VLM方向确立了清晰的技术路线图