EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens¶

会议: AAAI 2026
arXiv: 2511.21106
代码: 无
领域: 多模态VLM / 模型压缩
关键词: 知识蒸馏, 高效MLLM, 视觉token压缩, Hungarian匹配, 跨模态对齐

一句话总结¶

提出EM-KD框架，通过Hungarian算法解决teacher-student间视觉token数量不平衡问题，结合视觉语义蒸馏(VSD)和视觉-语言亲和力蒸馏(VLAD)将vanilla teacher的知识迁移到高效student MLLM，在11个benchmark上以144 token/patch达到50.4均分，超越576 token的LLaVA-NeXT(49.4)同时推理速度提升近2倍。

背景与动机¶

高效MLLM通过压缩或剪枝冗余视觉token来降低计算开销，但不可避免地导致视觉信息损失，尤其在细粒度理解任务上表现下降。虽然知识蒸馏可以在训练阶段增强student模型能力而不影响推理效率，但现有MLLM蒸馏方法（如LLaVA-KD、Align-KD）都要求teacher和student的视觉token在空间维度上一一对应，无法处理不同视觉编码器和投影器导致的token数量不平衡问题。

核心问题¶

当teacher使用强大的视觉编码器保留大量token（如576个），而student通过压缩投影器只保留少量token（如144个）时，如何建立有效的token级对应关系来进行知识蒸馏？这是一个在实际场景中非常普遍但此前被忽视的问题——不同的分辨率、视觉编码器和投影器都会导致teacher与student之间的视觉token不对齐。

方法详解¶

整体框架¶

EM-KD以LLaVA-OneVision-SI为teacher，以自适应平均池化压缩视觉token的LLaVA-NeXT为student，包含三个核心组件：Vision Token Matching → Vision Semantic Distillation → Vision-Language Affinity Distillation。训练分两阶段：Phase-1训练高效视觉投影器（CC-558K），Phase-2全模型SFT+蒸馏（779K混合数据），EM-KD仅在Phase-2使用。

关键设计¶

Vision Token Matching (VTM): 将teacher和student的视觉token通过LM head解码到词表空间得到vision logits，计算Manhattan距离构建代价矩阵，然后用GPU加速的Hungarian算法求解最优二部图匹配。关键insight是vision logits在词表空间具有显式语义（图像patch能映射到有意义的词），比hidden states空间的距离度量更准确。
Vision Semantic Distillation (VSD): 对匹配后的teacher-student vision logits对，使用reverse KL散度度量词表空间上离散概率分布的距离。选择logits而非hidden states作为蒸馏目标，因为它们语义更丰富，且teacher-student共享词表无需额外对齐层。
Vision-Language Affinity Distillation (VLAD): 不同于传统方法只建模视觉token间关系，VLAD计算匹配后的视觉token与文本token之间的余弦相似度矩阵（亲和力矩阵），然后最小化teacher和student亲和力矩阵的Smooth L1距离，强化跨模态对齐。

损失函数 / 训练策略¶

总损失: \(\mathcal{L} = \alpha\mathcal{L}_{sup} + (1-\alpha)\mathcal{L}_{rld} + \beta\mathcal{L}_{vsd} + \gamma\mathcal{L}_{vlad}\)，其中\(\alpha=0.5, \beta=0.25, \gamma=25\)。\(\mathcal{L}_{sup}\)是标准SFT损失，\(\mathcal{L}_{rld}\)是response token的reverse KL蒸馏。匹配过程no gradient，不参与反向传播。

实验关键数据¶

指标对比	本文(EM-KD 0.6B)	LLaVA-NeXT(vanilla)	DeCo	TokenPacker	LLaVA-KD*
平均分(11 bench)	50.4	49.4	47.7	47.0	49.7
TTFT(ms) ↓	54.9	103.3	54.9	61.0	-
ChartQA	59.1	34.3	34.1	34.3	57.3
DocVQA	64.1	57.6	53.8	52.9	62.7
OCRBench	39.7	38.6	34.4	33.5	39.0

8B规模下EM-KD也一致优于MiniLLM(62.5)和LLaVA-KD(62.3)，达到63.4均分。

消融实验要点¶

三个组件逐步叠加：Baseline 47.7 → +VLAD 48.4(+0.7) → +VSD 49.5(+1.8) → +RLD 50.4(+2.7)，每个组件都有独立贡献
匹配方法对比：Average Pooling(48.6) < Hungarian by Hidden States(49.4) < Hungarian by Logits(50.4)，说明语义空间匹配远优于简单池化
蒸馏对象对比：Hidden States(49.5) < Logits(50.4)，vision logits作为蒸馏目标更有效

亮点¶

匈牙利匹配+vision logits的组合非常优雅——把DETR中的set matching思想迁移到蒸馏场景，解决了一个实际且重要的问题
vision logits具有显式语义这个发现很有启发性——图像patch经过LM head后能映射到有意义的词（如"sky"、"dog"），为跨架构蒸馏提供了统一的语义空间
模型压缩+蒸馏的"双赢"——比vanilla模型少4倍token但性能更好(+1.0)，且推理速度提升近2倍
VLAD的设计思路可以迁移到其他需要增强vision-language对齐的场景

局限性 / 可改进方向¶

Hungarian算法的计算复杂度为\(O(n^3)\)，虽然在GPU上运行且no gradient，但当token数量很大时可能成为瓶颈
仅在LLaVA系列模型上验证，未覆盖InternVL、Qwen-VL等架构
只探索了最终层的vision logits，中间层的信息可能也有价值
对视频理解、多图理解等场景的泛化性未验证

与相关工作的对比¶

vs LLaVA-KD: LLaVA-KD只能蒸馏相同视觉编码器+投影器的模型，EM-KD通过VTM解除了这个限制，且多了跨模态亲和力蒸馏
vs MiniLLM: MiniLLM只蒸馏response token，忽略了视觉特征中的丰富语义信息，EM-KD在OCR/Chart类任务上优势明显
vs FastV/PyramidDrop: 这些training-free剪枝方法与Flash Attention不兼容导致加速效果有限，EM-KD的training-based压缩能充分利用加速算子

启发与关联¶

与 ideas/model_compression/20260316_task_aware_token_compression.md 高度相关——可以将EM-KD的蒸馏策略与任务感知的token压缩结合
Vision logits作为统一语义空间的思路，可能可以扩展到跨模态检索、多模态融合等场景
Hungarian匹配策略可以用于其他不对齐场景的知识迁移，如不同分辨率的特征图蒸馏

评分¶

新颖性: ⭐⭐⭐⭐ 将Hungarian匹配引入MLLM蒸馏是新颖的，但各组件单独看都不是全新的
实验充分度: ⭐⭐⭐⭐⭐ 11个benchmark + 两个规模 + 完善的消融实验，非常充分
写作质量: ⭐⭐⭐⭐ 逻辑清晰，但某些公式表述可以更简洁
价值: ⭐⭐⭐⭐⭐ 解决了MLLM蒸馏中一个实际且重要的问题，方法通用性强