HAWAII: Hierarchical Visual Knowledge Transfer for Efficient VLM¶
会议: NeurIPS 2025
arXiv: 2506.19072
代码: 有
领域: 多模态VLM
关键词: 知识蒸馏, 视觉编码器, LoRA, MoE, 多教师蒸馏
一句话总结¶
提出 Hawaii 框架,通过混合 LoRA 适配器(MoLA)和分层知识蒸馏(HKD),将多个视觉专家的知识蒸馏到单个视觉编码器中,在不增加推理成本的前提下显著提升 VLM 的视觉理解能力。
研究背景与动机¶
VLM 的性能很大程度上取决于视觉编码器的能力。近期研究表明,融合多个视觉专家(如 SAM、ConvNeXt、EVA 等)可以大幅提升性能,但存在严重的效率问题:
- 推理时成本高:多专家方案需要在训练和推理时都计算所有专家的视觉 token,计算和延迟开销大
- 多教师知识冲突:不同教师的训练数据、架构和目标各异,直接蒸馏会产生噪声和冗余知识
- 现有蒸馏方法不足:MoVE-KD 使用固定的 LoRA 适配器集处理所有教师,无法有效区分不同教师的知识
核心问题:如何在保持单编码器推理效率的同时,有效吸收多个视觉专家的互补知识?
方法详解¶
整体框架¶
Hawaii 遵循标准 VLM 架构(视觉编码器 → 投影器 → LLM),关键创新在视觉编码器部分。它由两个核心模块组成: 1. MoLA(Mixture of LoRA Adapters):管理教师特异性和通用知识的适配器 2. HKD(Hierarchical Knowledge Distillation):在细粒度和粗粒度两个层次进行知识蒸馏
关键设计¶
1. 混合 LoRA 适配器(MoLA)¶
MoLA 应用于学生编码器(CLIP)的每个前馈层,包含两组适配器:
教师特异性 LoRA 适配器 \(\{a_i^T\}_{i=1}^{N_t}\): - 每个适配器只对齐一个教师,避免不同教师知识间的冲突 - 由稀疏路由器 \(f_r^T(\cdot)\) 根据隐层输入动态选择
通用知识 LoRA 适配器 \(\{a_i^G\}_{i=1}^{N_g}\): - 学习多教师的集体共识 - 由独立稀疏路由器 \(f_r^G(\cdot)\) 选择
前馈层输出:\(F^*(h) = F(h) + a_i^T(h) + a_j^G(h)\),其中 \(i = \text{argmax}(f_r^T(h))\),\(j = \text{argmax}(f_r^G(h))\)。
每个适配器为 LoRA 块(rank=32),路由器为 2 层 MLP + GELU,每次只激活 top-1 适配器(稀疏设计)。
2. 粗粒度知识蒸馏(CGKD)¶
目标:蒸馏多教师的集体共识。
- 将各教师的视觉特征通过 pixel unshuffle 统一到学生的 token 长度
- 通道拼接后通过 2 层 MLP 生成汇总特征:\(I_{cg}^T = f_{cg}(\text{Concat}(I_1^T, I_2^T, ..., I_{N_t}^T))\)
- 用 MSE 损失对齐学生输出与汇总特征:\(\mathcal{L}_{cg} = \text{MSE}(I^S, I_{cg}^T)\)
通用 LoRA 适配器在此阶段发挥作用,学习全局对齐。
3. 细粒度知识蒸馏(FGKD)¶
目标:精确学习每个教师的独特知识。
教师特异性适配:激活第 \(i\) 个教师特异性 LoRA 时,学生输出 \(I_i^S\) 只需与第 \(i\) 个教师的特征 \(I_i^T\) 对齐。
Token 重要性评分:并非所有 token 同等重要。通过相似度评分选择最有信息量的 token: $\(s_i = \text{mean}\left(\text{softmax}\left(\frac{\text{Concat}(\hat{I}_i^T, \hat{T})(\hat{I}_i^T)^\top}{\sqrt{D}}\right)\right)\)$
这里同时考虑了教师视觉 token 和输入文本指令 \(T\) 的相关性,优先学习与任务更相关的 token。
细粒度蒸馏损失:\(\mathcal{L}_{fg} = \frac{1}{N_t} \sum_{i=1}^{N_t} s_i \cdot \text{MSE}(I_i^S, \hat{I}_i^T)\)
损失函数 / 训练策略¶
总体训练目标: $\(\mathcal{L} = \mathcal{L}_{gen} + \lambda_1(\mathcal{L}_{fg} + \mathcal{L}_{cg}) + \lambda_2 \mathcal{L}_{mb}\)$
- \(\mathcal{L}_{gen}\):文本生成损失(自回归)
- \(\lambda_1 = 0.5\):蒸馏损失权重
- \(\lambda_2 = 0.05\):MoE 平衡损失权重
- \(\mathcal{L}_{mb}\):MoE 负载均衡损失
两阶段训练(沿用 LLaVA-1.5 范式): 1. 预训练:558K 图文对,仅训练投影器、LoRA 适配器和路由器 2. 指令微调:665K 指令数据,全模型训练
教师配置: - 基础版 Hawaii:CLIP + ConvNeXt + EVA-02(3 个教师) - Hawaii†:额外加 Pix2Struct(4 个教师) - Hawaii‡:CLIP + ConvNeXt + EVA-02 + SAM
硬件:8 × NVIDIA A6000 (48GB)
实验关键数据¶
主实验¶
| 方法 | VQA-T | VizWiz | GQA | SQA | POPE | MME | MMB | MMMU | SeedB |
|---|---|---|---|---|---|---|---|---|---|
| LLaVA-1.5 (Baseline) | 58.2 | 50.0 | 62.0 | 66.8 | 85.9 | 1510.7 | 64.3 | 34.7 | 66.1 |
| MoVE-KD | 58.3 | 52.3 | 63.2 | 69.4 | 86.9 | 1524.5 | 66.3 | - | - |
| Hawaii | 58.7 | 53.9 | 62.8 | 70.5 | 87.3 | 1540.2 | 66.9 | 36.6 | 67.5 |
| Δ vs Baseline | +0.5 | +3.9 | +0.8 | +3.7 | +1.4 | +29.5 | +2.6 | +1.9 | +1.4 |
Hawaii 在所有基准上均优于 LLaVA-1.5 和 MoVE-KD。VizWiz 提升最为显著(+3.9%),SQA 提升 +3.7%。
消融实验¶
| 配置 | Avg. |
|---|---|
| LLaVA-1.5 (Baseline) | 61.9 |
| + FGKD (无 token scoring) | 63.2 |
| + token scoring | 63.5 |
| + CGKD (完整 Hawaii) | 63.7 |
| 通用适配器数量 | MME | POPE | SeedB |
|---|---|---|---|
| 1 | 1516.2 | 84.5 | 67.4 |
| 3 | 1540.2 | 87.3 | 67.5 |
| 5 | 1530.2 | 85.2 | 66.9 |
关键发现¶
- 逐步添加每个组件都带来提升:FGKD → token scoring → CGKD,证明分层设计有效
- 教师特异性 LoRA 优于共享 LoRA:对比 MoVE-KD(共享适配器),Hawaii 的独立适配器策略更优
- 通用适配器数量 3 个最优:过多(5 个)反而下降,过少(1 个)表示能力不足
- 13B 模型同样有效:Hawaii-13B 在对应基准上也优于 LLaVA-1.5-13B 和 MoVE-KD-13B
- 不同教师组合有差异:添加 SAM(Hawaii‡)比添加 Pix2Struct(Hawaii†)在某些任务上更优
亮点与洞察¶
- 推理零开销:蒸馏完成后只用一个视觉编码器(带 LoRA),推理成本与基线相同
- MoLA 的 MoE 设计精巧:教师特异性 + 通用知识的双路由机制,既避免冲突又学到共识
- Token 重要性评分考虑多信号:同时考虑教师视觉特征和文本指令,比纯视觉选择更合理
- 分层蒸馏思路通用:FGKD 精确学习,CGKD 全局对齐,两者互补
局限性 / 可改进方向¶
- 教师模型在训练时仍需前向传播(仅推理时免开销),训练阶段计算量较大
- 仅以 LLaVA-1.5 为基线,未与更强的 VLM(如 InternVL2、Qwen-VL2)对比
- 教师选择相对固定(CLIP/ConvNeXt/EVA/SAM),缺少自动选择机制
- LoRA rank=32 和适配器数量为经验设定,缺少系统性搜索
- 可探索动态路由权重而非 top-1 硬选择
相关工作与启发¶
- 与 MoVE-KD 的核心区别:MoVE-KD 用固定 LoRA 适配器处理所有教师,Hawaii 用教师特异性适配器消除冲突
- 与 Eagle/Cambrian 的区别:这些方法在推理时仍需多专家,Hawaii 仅在训练时用多专家
- 启发:MoLA 的设计思路可推广到其他多源知识融合场景(如多模态 fusion、多任务学习)
评分¶
- 新颖性: ⭐⭐⭐⭐ (MoLA模块和分层蒸馏的组合设计有创意)
- 实验充分度: ⭐⭐⭐⭐ (10个基准+详细消融,但基线是较旧的LLaVA-1.5)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,图示直观)
- 价值: ⭐⭐⭐⭐ (零推理开销+一致性提升,实用性强)