Uncertainty-Aware Knowledge Distillation for Multimodal Large Language Models¶

日期: 2026-03-22
arXiv: 2603.21426
代码: GitHub
领域: 多模态/VLM
关键词: knowledge distillation, MLLM, uncertainty, Bayesian inference, multi-objective

一句话总结¶

提出 Beta-KD，将知识蒸馏重新解释为带 Gibbs 先验的贝叶斯推断问题——用 Laplace 近似推导出闭式的不确定性自适应权重，自动平衡多目标蒸馏中的数据监督和教师引导，在 ScienceQA 上提升 ~4.7%。

领域现状: MLLM 蒸馏需要同时优化 CE loss（数据监督）和多种蒸馏 loss（教师引导），涉及 logit/特征/概率多层级匹配，超参数组合空间巨大。
现有痛点: (a) 不同样本的数据噪声程度不同——有些样本标签准确，有些有噪声；(b) 教师模型对不同样本的预测置信度也不同——有些教师信号可靠，有些不确定；(c) 多目标 loss 的权重通常靠网格搜索，在大规模 MLLM 上成本极高。
核心 idea: 把蒸馏中教师-学生的对齐看作贝叶斯推断中的 Gibbs 先验，引入不确定性参数 \(\beta\) 自动调节每个 loss 项和每个样本的权重——\(\beta\) 大则教师监督强，\(\beta\) 小则松弛约束。

学生 MLLM + 冻结教师 MLLM → 在学生端加入轻量不确定性网络 → 训练目标: \(\mathcal{L}_{CE} + \beta \cdot \ell_{distill} - \frac{d}{2}\log(\beta)\) → \(\beta\) 由 MAP 推断自动学习。

Gibbs 先验公式化:
- 教师-学生对齐建模为能量函数: \(p(a^s | a^t, \beta) \propto \exp[-\beta \cdot \ell(a^s; a^t)]\)
- \(\beta\) 越大，学生越紧密跟随教师；\(\beta\) 越小，容忍更大偏差
- 统一框架可涵盖 FKL/RKL/Cosine/MSE 等各种蒸馏目标
Laplace 近似推导闭式权重:
- 对不可解的配分函数做 Laplace 近似
- 推导出 MAP 估计: \(\hat{\beta} = d / (2 \cdot \ell_{distill})\)
- 消除网格搜索需求——\(\beta\) 随训练自动调节
双粒度不确定性估计:
- Task-level（同方差）: 每个 loss 项一个可学习标量 \(\beta\)，简单高效
- Instance-level（异方差）: 轻量网络预测每个样本的 \(\beta(x)\)，更精细
- Instance-level 在大规模数据上效果更好