Uncertainty-Aware Knowledge Distillation for Multimodal Large Language Models¶

会议: CVPR2026
arXiv: 2603.21426
代码: github.com/Jingchensun/beta-kd
领域: 多模态VLM
关键词: 知识蒸馏, 不确定性加权, 贝叶斯推断, Gibbs先验, 多任务平衡

一句话总结¶

提出Beta-KD，一种基于贝叶斯视角的不确定性感知知识蒸馏框架，通过将教师监督建模为Gibbs先验并用Laplace近似推导闭形解，自动调节数据与教师信号的平衡，在多模态VQA基准上持续提升蒸馏效果。

知识蒸馏(KD)是压缩大模型的核心技术，但在多模态LLM蒸馏中面临特殊挑战：

核心问题：如何自动平衡数据监督和教师监督，无需手动调权重？

将KD建模为学生激活值的MAP推断问题，教师信息作为Gibbs先验，通过Laplace近似简化配分函数，用神经网络摆化推断参数β。

Teacher-Informed Gibbs先验：
- \(p(a^s | a^t, \beta) = \frac{1}{Z_\beta(a^t)} \exp[-\beta \ell(a^s; a^t)]\)
- \(\ell\)可为任意对齐能量（FKL、RKL、Cosine、MSE等）
- \(\beta\)控制监督强度：大\(\beta\)意味着更信任教师，小\(\beta\)更信任数据
MAP推断与Laplace近似：
- MAP目标：\(\min_{a^s} -\log p(y|a^s) + \beta\ell(a^s;a^t) + \log Z_\beta(a^t)\)
- Laplace近似后: \(\log Z_\beta \approx -d/2 \cdot \log\beta + \text{const}\)
- 最终目标: \(\min \mathcal{L}_{CE} + \beta \ell + \frac{d}{2}\log\beta\)（自然正则化）
两种不确定性粒度：
- 任务级(homoscedastic)：\(\beta\)为每个任务共享的可学习标量
- 实例级(heteroscedastic)：\(\beta(x) = g_\phi(h(x)) > 0\)，轻量级网络从输入预测
- 实例级允许每个样本有不同的数据-教师平衡
能量函数设计空间探索：
- 发现Cosine-Probs效果最佳（尺度不变性，关注方向对齐）
- 前-softmax logit匹配(MSE-Logits、Cosine-Logits)在生成式MLLM中表现很差
- 与判别式任务的发现不同

\(\min_{\theta,\phi} \mathcal{L}_{CE}(\theta) + g_\phi(h(x))\ell(\theta) - \frac{d}{2}\log g_\phi(h(x))\)

冒结视觉编码器和tokenizer，仅微调语言backbone。

方法	ScienceQA VQA-Acc	ScienceQA IMG-Acc	提升
CE+JS	48.5	54.8	基线
CE+JS w/ Beta-KD(Task)	50.5(+1.1)	58.1(+1.7)	任务级
CE+JS w/ Beta-KD(Instance)	53.3(+3.9)	66.9(+10.6)	实例级