跳转至

DAIT: Distillation from Vision-Language Models to Lightweight Classifiers with Adaptive Intermediate Teacher Transfer

日期: 2026-03-16
arXiv: 2603.15166
领域: 多模态/VLM / 模型压缩
关键词: 知识蒸馏, VLM压缩, 中间教师, 细粒度分类, 自适应迁移

一句话总结

提出两阶段蒸馏框架 DAIT——在 VLM 和轻量学生之间插入可训练的中间教师(甚至比学生更小),先用语义对齐+表示对齐+分类损失从冻结 VLM 中过滤出紧凑的任务相关知识,再用空间表示对齐蒸馏到轻量模型,在五个 FGVC 基准上全面超越 VL2Lite 等方法,Aircraft 上 ResNet-18 提升 11.57%、EfficientNet-B0 提升 18.81%。

研究背景与动机

  1. 领域现状: 细粒度视觉分类(FGVC)需要区分高度相似的子类别(如鸟的种类、飞机型号),对模型的表示能力要求极高。VLM(如 OpenCLIP ConvNeXt-XXLarge)在大规模图文语料上预训练,编码了丰富的跨模态语义和细粒度视觉特征,天然适合 FGVC,但计算成本过高无法直接部署到边缘设备。

  2. 现有痛点: 知识蒸馏是将 VLM 能力迁移到轻量模型的自然选择,但从大型 VLM 直接蒸馏到小型 CNN 面临两大困难:

    • (a) 架构失配 (Architectural Misalignment): VLM 和轻量 CNN 在表示能力和模态上存在巨大鸿沟,导致优化不稳定甚至负迁移
    • (b) 任务无关信息干扰: VLM 作为通用模型包含大量对特定细粒度任务无用的知识,直接蒸馏这些未经过滤的知识引入噪声监督,削弱学生对判别性线索的关注能力
  3. 核心矛盾: 需要 VLM 的强表示能力,但无法直接桥接 VLM 与轻量模型之间的"表示鸿沟"——既要缩小模型规模差距,又要过滤任务无关信息。

  4. 切入角度: 既然直接蒸馏行不通,能否在 VLM 和学生之间插入一个中间层,负责"翻译"和"过滤"VLM 的知识?关键洞察:中间教师不需要比学生大,只需要与 VLM 在表示粒度上兼容。

  5. 核心 idea: 中间教师同时充当"知识过滤器"和"适配器"——在保持 VLM 完全冻结的前提下,通过任务监督将 VLM 的通用多模态表示重组为紧凑的、任务导向的判别性表示,再传递给学生。

方法详解

整体框架

两阶段级联蒸馏 pipeline:冻结 VLM → 可训练中间教师 → 轻量学生

  • 输入: 原始图像 \(x\),经数据增强生成 \(\tilde{x} = A(x)\)
  • VLM: OpenCLIP ConvNeXt-XXLarge,完全冻结,输出 1024 维特征
  • 中间教师: RegNet-Y-1.6GF(仅 11.2M 参数,比 ResNet-18 的 11.7M 还小)
  • 学生: ResNet-18 / MobileNet-V2 / ShuffleNet-V2 / EfficientNet-B0 等

Stage 1: VLM → 中间教师

核心目标:让中间教师从冻结 VLM 中学习任务相关的紧凑表示。

首先对 VLM 的图像/文本输出做非线性投影(两层 MLP),降维到 \(D\) 维空间:

  • \(z_v = f_{vlm}(E_V^I(\tilde{x})) \in \mathbb{R}^{B \times D}\)(VLM 图像特征)
  • \(t_c = f_{vlm}(E_V^T(\text{prompt}(c))) \in \mathbb{R}^{N \times D}\)(VLM 文本特征)
  • \(\tilde{z}_t = T_m(\tilde{x}) \in \mathbb{R}^{B \times D}\)(中间教师图像特征)

三个损失函数联合训练

  1. SIA (Semantic Image Alignment):

    • 做什么:用 KL 散度约束中间教师的图像-文本相似度分布,使其对齐 VLM 的多模态语义空间
    • 核心公式:\(\mathcal{L}_{SIA} = T^2 \cdot KL(\text{softmax}(\cos(\tilde{z}_t, t_c)/T), \text{softmax}(\cos(z_v, t_c)/T))\)
    • 设计动机:通过对齐在文本空间的相似度分布而非直接对齐特征,中间教师可以继承 VLM 的跨模态语义关系,而非盲目模仿高维表示
  2. IRA (Image Representation Alignment):

    • 做什么:L1 损失强制中间教师的图像表示逼近 VLM 的视觉编码
    • 核心公式:\(\mathcal{L}_{IRA} = \frac{1}{BD}\sum_{i,j}|\tilde{z}_t(i,j) - z_v(i,j)|\)
    • 设计动机:SIA 只约束相对分布,IRA 提供逐维度的绝对约束,双重对齐确保中间教师既保持语义关系又逼近 VLM 表示
  3. CLS (Classification):

    • 做什么:标准交叉熵分类损失
    • 设计动机:确保中间教师不只是模仿 VLM,还要真正学到判别性任务知识

总损失与动态权重调度\(\mathcal{L}_{VLM2Inter} = \lambda \mathcal{L}_{CLS} + \frac{(1-\lambda)}{2}(\mathcal{L}_{SIA} + \mathcal{L}_{IRA})\)

关键设计——\(\lambda = ke + b\)\(e\) 为当前 epoch):训练初期 \(\lambda \approx 0\),蒸馏损失占主导("先继承知识");随训练推进 \(\lambda\) 线性增大,分类损失权重上升("再精化判别")。这模拟了"先模仿再自主"的学习过程。

Stage 2: 中间教师 → 轻量模型

冻结中间教师,用特征级蒸馏训练学生:

  1. SRA (Spatial Representation Alignment):

    • 做什么:学生的最后卷积层特征图经一个卷积层对齐到中间教师的特征图
    • 核心公式:\(\mathcal{L}_{SRA} = \frac{1}{HW}\sum_{h,w}\|z_s(h,w) - z_t(h,w)\|_2^2\)(MSE 损失)
    • 设计动机:空间级对齐保留了细粒度的位置信息(如鸟的喙、飞机的引擎在特征图上的激活模式),比全局特征对齐更适合 FGVC
  2. 总损失\(\mathcal{L}_{Inter2Lite} = \lambda \mathcal{L}_{CLS} + (1-\lambda) \mathcal{L}_{SRA}\),同样使用动态权重调度

与先前多阶段蒸馏的本质区别

DAIT 与 TAKD/DGKD/AMD 等多阶段蒸馏有三点根本不同:(1) 这些方法在同构架构内逐步缩小模型(如 CNN 10→8→6→4→2 层),DAIT 解决的是跨架构、跨模态的 VLM→CNN 蒸馏;(2) 中间教师是"知识过滤器"而非"结构桥梁",强调重组知识而非级联压缩;(3) 中间教师可以比学生更小(RegNet 11.2M < ResNet-18 11.7M),选择依据是架构兼容性而非参数量。

实验关键数据

主实验(DAIT vs VL2Lite 及其他蒸馏方法)

模型 方法 CUB-200 Aircraft Sf Dogs Sf Cars NABirds
R-18 w/o KD 64.95 50.98 67.80 70.03 57.01
R-18 VL2Lite 71.38 55.87 72.40 77.09 63.26
R-18 DAIT 79.77 67.44 78.10 88.96 74.38
R-18 提升(vs VL2Lite) +8.39 +11.57 +5.70 +11.87 +11.12
Eff-B0 VL2Lite 73.87 52.18 77.68 75.00 69.78
Eff-B0 DAIT 82.76 70.99 81.96 90.33 78.42
Eff-B0 提升(vs VL2Lite) +8.89 +18.81 +4.28 +15.33 +8.64

在所有 5 个数据集 × 4 种学生架构的 20 个组合中,DAIT 全面超越 VL2Lite(此前最优方法),平均提升约 9-10 个百分点。

消融实验

配置 FGVC-Aircraft (R-18) 说明
直接蒸馏 (VL2Lite) 55.87 无中间教师
中间教师=ResNet-50 ~62 大模型不一定好
中间教师=VGG-13 ~61 CKA 高但维度4096太大
中间教师=RegNet-Y-1.6GF 67.44 最优,11.2M 参数
中间教师=EfficientNet-B0 ~64 次优

关键发现:RegNet 只有 11.2M 参数(比 ResNet-18 还小),但因其逐阶宽度设计与 VLM 的特征图尺度天然兼容,是最佳中间教师。中间教师选择取决于架构兼容性而非参数量。

数据稀缺场景

训练数据比例 VL2Lite (Sf Cars) DAIT (Sf Cars) 提升
30% 43.36 72.64 +29.28
50% 60.41 81.85 +21.44
100% 77.09 88.96 +11.87

数据越少,DAIT 优势越大——在 30% 数据时 Stanford Cars 上提升高达 29.28%,表明中间教师的知识过滤能力在数据稀缺时尤为重要。

亮点与洞察

  • 中间教师不只是"桥梁"而是"过滤器": 重点是重组知识而非简单传递。通过任务监督抑制 VLM 中的无关语义、增强判别 pattern,注意力可视化清晰显示 DAIT 激活集中在判别性部位(如鸟的躯体)而非背景。
  • "小于学生的教师"颠覆直觉: RegNet-Y-1.6GF (11.2M) 比 ResNet-18 (11.7M) 更小,但作为中间教师效果最好。这说明中间教师的价值在于架构兼容性和表示粒度匹配,而非单纯的模型容量。CKA 分析进一步验证了这一点。
  • 动态权重调度 \(\lambda = ke + b\): 简洁的线性调度实现了"先蒸馏后判别"的课程学习效果,实验证明以蒸馏损失为主的策略显著优于以分类损失为主的策略。
  • 数据稀缺时优势放大: 30% 数据时提升 29%,说明中间教师的知识过滤在标注稀缺场景下尤为关键——它比直接蒸馏提供了更高效的监督信号。

局限性 / 可改进方向

  • 任务范围窄: 仅在 FGVC 任务上验证,对 VQA、图像检索、开放词表识别等更复杂的 VLM 下游任务是否同样有效尚未验证
  • 中间教师需要独立训练: 两阶段训练增加了总训练时间,能否端到端联合训练中间教师和学生?
  • 中间教师架构选择缺乏理论指导: 目前通过穷举消融选择 RegNet,能否从 CKA 或其他表示相似度指标出发,自动搜索最优中间教师架构?
  • 仅限视觉分类: 中间教师只接收图像输入,没有利用 VLM 的文本编码器能力(文本只参与 SIA 损失),能否让中间教师也处理文本以传递更完整的多模态知识?
  • 固定线性调度: \(\lambda = ke + b\) 虽然有效但粗糙,能否用学习率感知或损失感知的自适应调度?

相关工作与启发

  • vs VL2Lite: 直接从冻结 VLM 蒸馏到轻量分类器,不引入中间教师。DAIT 在所有设置下全面超越,说明中间教师的"知识过滤"作用不可替代。
  • vs TAKD/DGKD: 传统多阶段蒸馏用同构架构逐步减小模型,本质是"级联压缩";DAIT 是"跨模态知识重组",解决的问题维度完全不同。
  • vs BorLan/RISE: BorLan 借用语言表示、RISE 用句子嵌入辅助蒸馏,但都是单阶段,没有中间教师做知识过滤,效果均不如 DAIT。

评分

  • 新颖性: ⭐⭐⭐ 中间教师蒸馏框架不新,但"比学生更小的教师"发现、动态权重调度和双对齐设计有实际价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个FGVC基准×4种学生架构,消融充分(中间教师选择/λ调度/数据稀缺)
  • 写作质量: ⭐⭐⭐⭐ 方法清晰,与先前工作的区别论述到位
  • 价值: ⭐⭐⭐⭐ 为将 VLM 能力落地到端侧提供了实用且验证充分的方案