跳转至

EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens

会议: AAAI 2026
arXiv: 2511.21106
代码: 无
领域: 多模态VLM / 模型压缩
关键词: 知识蒸馏, 高效MLLM, 视觉token压缩, Hungarian匹配, 跨模态对齐

一句话总结

提出EM-KD框架,通过Hungarian算法解决teacher-student间视觉token数量不平衡问题,结合视觉语义蒸馏(VSD)和视觉-语言亲和力蒸馏(VLAD)将vanilla teacher的知识迁移到高效student MLLM,在11个benchmark上以144 token/patch达到50.4均分,超越576 token的LLaVA-NeXT(49.4)同时推理速度提升近2倍。

背景与动机

高效MLLM通过压缩或剪枝冗余视觉token来降低计算开销,但不可避免地导致视觉信息损失,尤其在细粒度理解任务上表现下降。虽然知识蒸馏可以在训练阶段增强student模型能力而不影响推理效率,但现有MLLM蒸馏方法(如LLaVA-KD、Align-KD)都要求teacher和student的视觉token在空间维度上一一对应,无法处理不同视觉编码器和投影器导致的token数量不平衡问题。

核心问题

当teacher使用强大的视觉编码器保留大量token(如576个),而student通过压缩投影器只保留少量token(如144个)时,如何建立有效的token级对应关系来进行知识蒸馏?这是一个在实际场景中非常普遍但此前被忽视的问题——不同的分辨率、视觉编码器和投影器都会导致teacher与student之间的视觉token不对齐。

方法详解

整体框架

EM-KD以LLaVA-OneVision-SI为teacher,以自适应平均池化压缩视觉token的LLaVA-NeXT为student,包含三个核心组件:Vision Token Matching → Vision Semantic Distillation → Vision-Language Affinity Distillation。训练分两阶段:Phase-1训练高效视觉投影器(CC-558K),Phase-2全模型SFT+蒸馏(779K混合数据),EM-KD仅在Phase-2使用。

关键设计

  1. Vision Token Matching (VTM): 将teacher和student的视觉token通过LM head解码到词表空间得到vision logits,计算Manhattan距离构建代价矩阵,然后用GPU加速的Hungarian算法求解最优二部图匹配。关键insight是vision logits在词表空间具有显式语义(图像patch能映射到有意义的词),比hidden states空间的距离度量更准确。
  2. Vision Semantic Distillation (VSD): 对匹配后的teacher-student vision logits对,使用reverse KL散度度量词表空间上离散概率分布的距离。选择logits而非hidden states作为蒸馏目标,因为它们语义更丰富,且teacher-student共享词表无需额外对齐层。
  3. Vision-Language Affinity Distillation (VLAD): 不同于传统方法只建模视觉token间关系,VLAD计算匹配后的视觉token与文本token之间的余弦相似度矩阵(亲和力矩阵),然后最小化teacher和student亲和力矩阵的Smooth L1距离,强化跨模态对齐。

损失函数 / 训练策略

总损失: \(\mathcal{L} = \alpha\mathcal{L}_{sup} + (1-\alpha)\mathcal{L}_{rld} + \beta\mathcal{L}_{vsd} + \gamma\mathcal{L}_{vlad}\),其中\(\alpha=0.5, \beta=0.25, \gamma=25\)\(\mathcal{L}_{sup}\)是标准SFT损失,\(\mathcal{L}_{rld}\)是response token的reverse KL蒸馏。匹配过程no gradient,不参与反向传播。

实验关键数据

指标对比 本文(EM-KD 0.6B) LLaVA-NeXT(vanilla) DeCo TokenPacker LLaVA-KD*
平均分(11 bench) 50.4 49.4 47.7 47.0 49.7
TTFT(ms) ↓ 54.9 103.3 54.9 61.0 -
ChartQA 59.1 34.3 34.1 34.3 57.3
DocVQA 64.1 57.6 53.8 52.9 62.7
OCRBench 39.7 38.6 34.4 33.5 39.0

8B规模下EM-KD也一致优于MiniLLM(62.5)和LLaVA-KD(62.3),达到63.4均分。

消融实验要点

  • 三个组件逐步叠加:Baseline 47.7 → +VLAD 48.4(+0.7) → +VSD 49.5(+1.8) → +RLD 50.4(+2.7),每个组件都有独立贡献
  • 匹配方法对比:Average Pooling(48.6) < Hungarian by Hidden States(49.4) < Hungarian by Logits(50.4),说明语义空间匹配远优于简单池化
  • 蒸馏对象对比:Hidden States(49.5) < Logits(50.4),vision logits作为蒸馏目标更有效

亮点

  • 匈牙利匹配+vision logits的组合非常优雅——把DETR中的set matching思想迁移到蒸馏场景,解决了一个实际且重要的问题
  • vision logits具有显式语义这个发现很有启发性——图像patch经过LM head后能映射到有意义的词(如"sky"、"dog"),为跨架构蒸馏提供了统一的语义空间
  • 模型压缩+蒸馏的"双赢"——比vanilla模型少4倍token但性能更好(+1.0),且推理速度提升近2倍
  • VLAD的设计思路可以迁移到其他需要增强vision-language对齐的场景

局限性 / 可改进方向

  • Hungarian算法的计算复杂度为\(O(n^3)\),虽然在GPU上运行且no gradient,但当token数量很大时可能成为瓶颈
  • 仅在LLaVA系列模型上验证,未覆盖InternVL、Qwen-VL等架构
  • 只探索了最终层的vision logits,中间层的信息可能也有价值
  • 对视频理解、多图理解等场景的泛化性未验证

与相关工作的对比

  • vs LLaVA-KD: LLaVA-KD只能蒸馏相同视觉编码器+投影器的模型,EM-KD通过VTM解除了这个限制,且多了跨模态亲和力蒸馏
  • vs MiniLLM: MiniLLM只蒸馏response token,忽略了视觉特征中的丰富语义信息,EM-KD在OCR/Chart类任务上优势明显
  • vs FastV/PyramidDrop: 这些training-free剪枝方法与Flash Attention不兼容导致加速效果有限,EM-KD的training-based压缩能充分利用加速算子

启发与关联

  • ideas/model_compression/20260316_task_aware_token_compression.md 高度相关——可以将EM-KD的蒸馏策略与任务感知的token压缩结合
  • Vision logits作为统一语义空间的思路,可能可以扩展到跨模态检索、多模态融合等场景
  • Hungarian匹配策略可以用于其他不对齐场景的知识迁移,如不同分辨率的特征图蒸馏

评分

  • 新颖性: ⭐⭐⭐⭐ 将Hungarian匹配引入MLLM蒸馏是新颖的,但各组件单独看都不是全新的
  • 实验充分度: ⭐⭐⭐⭐⭐ 11个benchmark + 两个规模 + 完善的消融实验,非常充分
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰,但某些公式表述可以更简洁
  • 价值: ⭐⭐⭐⭐⭐ 解决了MLLM蒸馏中一个实际且重要的问题,方法通用性强