BRAVE: Broadening the Visual Encoding of Vision-Language Models¶

会议: ECCV 2024
arXiv: 2404.07204
代码: 项目主页
领域: 多模态VLM
关键词: 多编码器融合, Q-Former, 视觉编码, VQA, 视觉幻觉

一句话总结¶

本文系统性地分析了不同视觉编码器（CLIP、DINOv2、EVA-CLIP等）对VLM性能的影响，发现没有单一编码器能在所有任务上最优，基于此提出BRAVE方法，通过轻量级的MEQ-Former将多个冻结编码器的特征融合为紧凑表示，以仅116M可训练参数在captioning和VQA任务上取得SOTA，并显著降低视觉幻觉。

研究背景与动机¶

领域现状：VLM通常由视觉编码器（如CLIP）+ 桥接模块（如Q-Former/MLP）+ 语言模型（如LLaMA）组成。近期研究在更大LM、更多训练数据方面投入巨大，性能显著提升。
现有痛点：VLM在视觉端存在严重局限：
CLIP盲区：Tong等人发现CLIP对某些视觉差异"视而不见"，无法区分具有明显视觉差异的图像对
视觉幻觉：VLM会凭空想象图像中不存在的细节
单一编码器的偏见：不同的编码器因训练目标、数据和模型大小不同而具有不同的归纳偏置，单一编码器必然存在某些方面的短板
核心矛盾：VLM需要全面理解图像的多种视觉属性（颜色、空间关系、纹理、语义等），但单一编码器由固定的训练目标和数据决定，不可能在所有维度上都表现最优。
本文解决什么：如何高效地融合多个具有不同视觉偏置的编码器，创建更全面的视觉表示。
切入角度：先做系统性的编码器benchmark（8种编码器×5个任务），用数据证明"没有万能编码器"，然后提出融合方案。
核心idea：用一个统一的轻量级查询变换器（MEQ-Former）将任意数量的冻结编码器特征重采样并融合为固定长度的紧凑表示，作为冻结LM的soft visual prompt。

方法详解¶

整体框架¶

多个冻结视觉编码器（5个）→ 各自提取图像特征 → 线性投影到统一维度 → 序列级拼接 → MEQ-Former通过交叉注意力重采样并融合 → 固定长度输出 → FC投影到LM输入空间 → 作为soft visual prompt + 文本prompt输入冻结LM → 生成输出。

关键设计¶

多编码器系统性分析（Section 2）：
做什么：在统一框架下评估8种视觉编码器对VLM性能的影响
编码器选择：CLIP-L/14、OpenCLIP-G/14、EVA-CLIP-g、SIGLIP-G/14、SILC-G/16、ViT-e、ViT-G、DINOv2-L/14
核心发现：
- 不同编码器在不同任务上表现差异显著（COCO标准差4.91, VQAv2标准差1.74）
- 没有单一编码器能一致最优
- 具有截然不同偏置的编码器可能表现相似（如EVA-CLIP vs ViT-e）
- MMVP对所有编码器都很有挑战性（大多低于随机猜测的25%）
设计动机：数据驱动地证明了多编码器融合的必要性
MEQ-Former（Multi-Encoder Querying Transformer）：
做什么：将来自K个编码器的特征统一融合为固定长度的紧凑表示
核心思路：
- 各编码器特征通过线性层投影到统一维度（1408维）
- 序列级拼接后作为交叉注意力的key/value
- 160个可学习query（32×5个编码器）加上文本prompt token作为交叉注意力的query
- 12层Transformer进行交叉注意力和自注意力交替处理
- 最终160个query输出通过FC层映射到LM输入空间
特征压缩效果：从 \(1223 \times 1408\) 压缩到 \(160 \times 768\)（14倍压缩）
设计动机：
- 交叉注意力自然地解决了不同编码器输出维度不同的问题
- 固定长度输出使LM端成本恒定，不随编码器数量增加
- 不给特征添加编码器标识embedding，让MEQ-Former自行学习如何利用不同特征
- 相比Q-Former集成（5×110M=550M），MEQ-Former只需116M参数
编码器Dropout训练策略：
做什么：预训练时以20%概率随机屏蔽每个编码器的特征
核心思路：作为正则化手段，防止MEQ-Former只依赖单一编码器
设计动机：避免局部最优——如果不做dropout，MEQ-Former可能学会偷懒只关注最容易拟合的编码器

损失函数 / 训练策略¶

预训练：在WebLI数据集（100M图文对）上，以captioning为目标训练MEQ-Former，视觉编码器和LM全部冻结
VQA微调：在VQAv2+OKVQA+VQ2A混合数据（17M样本）上微调MEQ-Former和LM
高分辨率微调：在336×336分辨率上进一步微调
总可训练参数仅116M（约占VLM总参数的1%）

实验关键数据¶

Captioning主实验¶

方法	可训练参数	COCO(CIDEr)↑	NoCaps out-domain↑	NoCaps overall↑
PaLI-17B	16.9B	149.1	-	127.0
GiT2	5.1B	145.0	130.6	126.9
BLIP-2	1.1B	144.5	124.8	121.6
InstructBLIP	188M	-	-	121.9
BRAVE	116M	148.0	133.3	127.6

VQA主实验¶

方法	可训练参数	VQAv2↑	OKVQA↑	GQA↑	VizWiz↑	MMVP↑	POPE↑
PaLI-17B	16.9B	84.3	64.5	-	-	-	-
LLaVA-1.5	13B	80.0	-	63.3	53.6	24.7	85.9
InstructBLIP	188M	-	55.5	-	33.4	16.7	78.9
SPHINX-2k	13B	80.7	62.6	63.1	44.9	-	87.2
BRAVE	3B	82.5	66.0	66.3	54.2	42.0	87.6

消融实验¶

配置	COCO↑	VQAv2↑	OKVQA↑	说明
A0: 完整BRAVE	147.0	81.8	65.7	基线
A1: LM不微调	-	78.6	57.5	LM微调对VQA至关重要
A1: LoRA r=128	-	81.0	62.9	LoRA可补偿70%性能差距
A2: 无合成VQA数据	-	81.1	64.0	合成数据贡献显著
A3: 无编码器dropout	145.3	81.3	66.0	captioning受影响更大
A4: 无文本输入MEQ	145.9	81.4	64.9	文本prompt有助于任务对齐
A5: 无高分辨率微调	145.2	79.6	65.0	高分辨率对VQA很重要
A8: FlanT5-L(更小LM)	142.5	79.9	65.5	更大LM在语言端有明显优势

MEQ-Former vs Q-Former集成¶

桥接方式	参数量	COCO↑	VQAv2↑	OKVQA↑	GQA↑
Q-Former集成	605M	140.9	78.5	64.3	50.6
MEQ-Former	116M	145.2	79.6	65.0	51.5

关键发现¶

BRAVE在MMVP上的提升最为惊人：42.0% vs 单编码器最佳27.3%（+14.7%），远超随机猜测线25%
在NoCaps out-domain上的强势表现（133.3）说明多编码器融合显著增强了OOD泛化
MEQ-Former用5倍少的参数超越Q-Former集成，说明统一重采样优于简单拼接
移除任意2个编码器，性能退化是渐进的（鲁棒性好），但超过2个时退化加速
MEQ-Former会根据下游任务自适应地分配对不同编码器的注意力权重
视觉端scaling（多编码器）和语言端scaling（更大LM）对VLM性能有互补的贡献

亮点与洞察¶

"没有万能编码器"的系统性证据：8编码器×5任务的全面benchmark首次在统一框架下量化了这一直觉
视觉端scaling的新范式：相比增大单一编码器或增大LM，组合多个具有不同偏置的编码器是一种新的scaling维度
极致的参数效率：116M可训练参数（总参数的1%）取得SOTA，比PaLI-17B少150倍可训练参数
编码器Dropout作为正则化：简单但有效的训练技巧，可迁移到其他多源特征融合场景
特征不标记编码器来源：MEQ-Former不需要知道特征来自哪个编码器，这简化了设计并增强了灵活性

局限性 / 可改进方向¶

推理时需要所有编码器的前向传播，计算成本随编码器数量线性增长
未探索自适应编码器选择机制——根据输入动态决定使用哪些编码器可以降低推理成本
编码器集合还可以扩展：如加入3D先验编码器、场景理解编码器
仅探索了图像+文本模态，可扩展到音频、视频等多模态
受限于LM的固有偏见和幻觉问题

评分¶

新颖性: ⭐⭐⭐⭐ 多编码器融合的idea本身不算全新,但MEQ-Former的统一重采样设计和系统性的编码器分析具有重要贡献
实验充分度: ⭐⭐⭐⭐⭐ 8编码器benchmark + 8个下游任务 + 详细消融 + 编码器贡献分析 + 与集成方式对比,极其全面
写作质量: ⭐⭐⭐⭐⭐ 从分析到方法到实验的逻辑链条非常完整,motivation强,图表专业
价值: ⭐⭐⭐⭐⭐ 证明了视觉端scaling的重要性,MEQ-Former设计简洁高效可复用,对VLM社区有直接推动作用