跳转至

BRAVE: Broadening the Visual Encoding of Vision-Language Models

会议: ECCV 2024
arXiv: 2404.07204
代码: 项目主页
领域: 多模态VLM
关键词: 多编码器融合, Q-Former, 视觉编码, VQA, 视觉幻觉

一句话总结

本文系统性地分析了不同视觉编码器(CLIP、DINOv2、EVA-CLIP等)对VLM性能的影响,发现没有单一编码器能在所有任务上最优,基于此提出BRAVE方法,通过轻量级的MEQ-Former将多个冻结编码器的特征融合为紧凑表示,以仅116M可训练参数在captioning和VQA任务上取得SOTA,并显著降低视觉幻觉。

研究背景与动机

  1. 领域现状:VLM通常由视觉编码器(如CLIP)+ 桥接模块(如Q-Former/MLP)+ 语言模型(如LLaMA)组成。近期研究在更大LM、更多训练数据方面投入巨大,性能显著提升。

  2. 现有痛点:VLM在视觉端存在严重局限:

  3. CLIP盲区:Tong等人发现CLIP对某些视觉差异"视而不见",无法区分具有明显视觉差异的图像对
  4. 视觉幻觉:VLM会凭空想象图像中不存在的细节
  5. 单一编码器的偏见:不同的编码器因训练目标、数据和模型大小不同而具有不同的归纳偏置,单一编码器必然存在某些方面的短板

  6. 核心矛盾:VLM需要全面理解图像的多种视觉属性(颜色、空间关系、纹理、语义等),但单一编码器由固定的训练目标和数据决定,不可能在所有维度上都表现最优。

  7. 本文解决什么:如何高效地融合多个具有不同视觉偏置的编码器,创建更全面的视觉表示。

  8. 切入角度:先做系统性的编码器benchmark(8种编码器×5个任务),用数据证明"没有万能编码器",然后提出融合方案。

  9. 核心idea:用一个统一的轻量级查询变换器(MEQ-Former)将任意数量的冻结编码器特征重采样并融合为固定长度的紧凑表示,作为冻结LM的soft visual prompt。

方法详解

整体框架

多个冻结视觉编码器(5个)→ 各自提取图像特征 → 线性投影到统一维度 → 序列级拼接 → MEQ-Former通过交叉注意力重采样并融合 → 固定长度输出 → FC投影到LM输入空间 → 作为soft visual prompt + 文本prompt输入冻结LM → 生成输出。

关键设计

  1. 多编码器系统性分析(Section 2)
  2. 做什么:在统一框架下评估8种视觉编码器对VLM性能的影响
  3. 编码器选择:CLIP-L/14、OpenCLIP-G/14、EVA-CLIP-g、SIGLIP-G/14、SILC-G/16、ViT-e、ViT-G、DINOv2-L/14
  4. 核心发现:
    • 不同编码器在不同任务上表现差异显著(COCO标准差4.91, VQAv2标准差1.74)
    • 没有单一编码器能一致最优
    • 具有截然不同偏置的编码器可能表现相似(如EVA-CLIP vs ViT-e)
    • MMVP对所有编码器都很有挑战性(大多低于随机猜测的25%)
  5. 设计动机:数据驱动地证明了多编码器融合的必要性

  6. MEQ-Former(Multi-Encoder Querying Transformer)

  7. 做什么:将来自K个编码器的特征统一融合为固定长度的紧凑表示
  8. 核心思路:
    • 各编码器特征通过线性层投影到统一维度(1408维)
    • 序列级拼接后作为交叉注意力的key/value
    • 160个可学习query(32×5个编码器)加上文本prompt token作为交叉注意力的query
    • 12层Transformer进行交叉注意力和自注意力交替处理
    • 最终160个query输出通过FC层映射到LM输入空间
  9. 特征压缩效果:从 \(1223 \times 1408\) 压缩到 \(160 \times 768\)(14倍压缩)
  10. 设计动机:

    • 交叉注意力自然地解决了不同编码器输出维度不同的问题
    • 固定长度输出使LM端成本恒定,不随编码器数量增加
    • 不给特征添加编码器标识embedding,让MEQ-Former自行学习如何利用不同特征
    • 相比Q-Former集成(5×110M=550M),MEQ-Former只需116M参数
  11. 编码器Dropout训练策略

  12. 做什么:预训练时以20%概率随机屏蔽每个编码器的特征
  13. 核心思路:作为正则化手段,防止MEQ-Former只依赖单一编码器
  14. 设计动机:避免局部最优——如果不做dropout,MEQ-Former可能学会偷懒只关注最容易拟合的编码器

损失函数 / 训练策略

  • 预训练:在WebLI数据集(100M图文对)上,以captioning为目标训练MEQ-Former,视觉编码器和LM全部冻结
  • VQA微调:在VQAv2+OKVQA+VQ2A混合数据(17M样本)上微调MEQ-Former和LM
  • 高分辨率微调:在336×336分辨率上进一步微调
  • 总可训练参数仅116M(约占VLM总参数的1%)

实验关键数据

Captioning主实验

方法 可训练参数 COCO(CIDEr)↑ NoCaps out-domain↑ NoCaps overall↑
PaLI-17B 16.9B 149.1 - 127.0
GiT2 5.1B 145.0 130.6 126.9
BLIP-2 1.1B 144.5 124.8 121.6
InstructBLIP 188M - - 121.9
BRAVE 116M 148.0 133.3 127.6

VQA主实验

方法 可训练参数 VQAv2↑ OKVQA↑ GQA↑ VizWiz↑ MMVP↑ POPE↑
PaLI-17B 16.9B 84.3 64.5 - - - -
LLaVA-1.5 13B 80.0 - 63.3 53.6 24.7 85.9
InstructBLIP 188M - 55.5 - 33.4 16.7 78.9
SPHINX-2k 13B 80.7 62.6 63.1 44.9 - 87.2
BRAVE 3B 82.5 66.0 66.3 54.2 42.0 87.6

消融实验

配置 COCO↑ VQAv2↑ OKVQA↑ 说明
A0: 完整BRAVE 147.0 81.8 65.7 基线
A1: LM不微调 - 78.6 57.5 LM微调对VQA至关重要
A1: LoRA r=128 - 81.0 62.9 LoRA可补偿70%性能差距
A2: 无合成VQA数据 - 81.1 64.0 合成数据贡献显著
A3: 无编码器dropout 145.3 81.3 66.0 captioning受影响更大
A4: 无文本输入MEQ 145.9 81.4 64.9 文本prompt有助于任务对齐
A5: 无高分辨率微调 145.2 79.6 65.0 高分辨率对VQA很重要
A8: FlanT5-L(更小LM) 142.5 79.9 65.5 更大LM在语言端有明显优势

MEQ-Former vs Q-Former集成

桥接方式 参数量 COCO↑ VQAv2↑ OKVQA↑ GQA↑
Q-Former集成 605M 140.9 78.5 64.3 50.6
MEQ-Former 116M 145.2 79.6 65.0 51.5

关键发现

  • BRAVE在MMVP上的提升最为惊人:42.0% vs 单编码器最佳27.3%(+14.7%),远超随机猜测线25%
  • 在NoCaps out-domain上的强势表现(133.3)说明多编码器融合显著增强了OOD泛化
  • MEQ-Former用5倍少的参数超越Q-Former集成,说明统一重采样优于简单拼接
  • 移除任意2个编码器,性能退化是渐进的(鲁棒性好),但超过2个时退化加速
  • MEQ-Former会根据下游任务自适应地分配对不同编码器的注意力权重
  • 视觉端scaling(多编码器)和语言端scaling(更大LM)对VLM性能有互补的贡献

亮点与洞察

  • "没有万能编码器"的系统性证据:8编码器×5任务的全面benchmark首次在统一框架下量化了这一直觉
  • 视觉端scaling的新范式:相比增大单一编码器或增大LM,组合多个具有不同偏置的编码器是一种新的scaling维度
  • 极致的参数效率:116M可训练参数(总参数的1%)取得SOTA,比PaLI-17B少150倍可训练参数
  • 编码器Dropout作为正则化:简单但有效的训练技巧,可迁移到其他多源特征融合场景
  • 特征不标记编码器来源:MEQ-Former不需要知道特征来自哪个编码器,这简化了设计并增强了灵活性

局限性 / 可改进方向

  • 推理时需要所有编码器的前向传播,计算成本随编码器数量线性增长
  • 未探索自适应编码器选择机制——根据输入动态决定使用哪些编码器可以降低推理成本
  • 编码器集合还可以扩展:如加入3D先验编码器、场景理解编码器
  • 仅探索了图像+文本模态,可扩展到音频、视频等多模态
  • 受限于LM的固有偏见和幻觉问题

相关工作与启发

  • vs BLIP-2:BLIP-2用单一Q-Former桥接单一编码器,BRAVE将其推广为多编码器的MEQ-Former,参数更少(116M vs 188M)但性能更强
  • vs LLaVA-1.5:LLaVA用MLP连接CLIP和LM,参数13B但在MMVP(24.7%)上远不及BRAVE(42.0%),因为CLIP的盲区无法被MLP修复
  • vs LLaVA-MoF/SPHINX:这些concurrent work也探索多编码器,但通过简单拼接特征输入LM,不可扩展。BRAVE的统一重采样机制可处理任意数量的编码器

评分

  • 新颖性: ⭐⭐⭐⭐ 多编码器融合的idea本身不算全新,但MEQ-Former的统一重采样设计和系统性的编码器分析具有重要贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 8编码器benchmark + 8个下游任务 + 详细消融 + 编码器贡献分析 + 与集成方式对比,极其全面
  • 写作质量: ⭐⭐⭐⭐⭐ 从分析到方法到实验的逻辑链条非常完整,motivation强,图表专业
  • 价值: ⭐⭐⭐⭐⭐ 证明了视觉端scaling的重要性,MEQ-Former设计简洁高效可复用,对VLM社区有直接推动作用