Local Dense Logit Relations for Enhanced Knowledge Distillation¶

会议: ICCV 2025
arXiv: 2507.15911
代码: 无（论文承诺公开）
领域: 模型压缩
关键词: 知识蒸馏, logit 蒸馏, 类别对关系, 自适应衰减权重, 细粒度知识迁移

一句话总结¶

本文提出局部稠密关系 logit 蒸馏（LDRLD），通过递归解耦和重组 logit 知识来捕获细粒度的类间关系，结合自适应衰减权重（ADW）策略对关键类别对赋予更高权重，在 CIFAR-100、ImageNet-1K 和 Tiny-ImageNet 上持续优于现有 logit 蒸馏 SOTA。

研究背景与动机¶

知识蒸馏（KD）将大规模教师模型的"暗知识"迁移到轻量化学生模型中。logit-based KD 方法因其计算效率和通用性而备受关注。经典 KD 使用全局 softmax 计算 KL 散度来传递教师的输出概率分布。

然而，现有 logit 蒸馏方法存在对细粒度类间关系建模不足的问题：

全局 softmax 弱化了低概率类间差异：softmax 对高概率类聚焦，压缩了低概率类之间的概率差异，限制了学生捕获它们之间的细粒度关系

无关类引入信息冗余：当建模"猫"和"狗"的关系时，全局 softmax 引入了"汽车"等无关类的概率，干扰并削弱了目标类对的判别性

均匀权重忽略类对重要性差异：现有方法对所有类对赋予相同权重，但语义相近的类对（如"猫"vs"狗"）应比语义远离的类对（如"猫"vs"飞机"）获得更多关注

本文的切入角度是：将 logit 知识从全局分布分解为局部的类别对关系，通过局部 softmax 增强每个类对的判别性，同时用基于排名的自适应衰减策略聚焦关键类对。可以直觉理解为：全局 KD 中"猫"和"狗"的概率差 $\Delta P_{KD} = |p_1 - p_2| = |\frac{e^{Z_1} - e^{Z_2}}{\sum_{i=1}^C e^{Z_i}}|$，而 LDRLD 中为 $\Delta P_{LDRLD} = |\frac{e^{Z_1} - e^{Z_2}}{\sum_{i=1}^2 e^{Z_i}}|$，显然后者更大。

方法详解¶

整体框架¶

LDRLD 包含三个损失项：(1) 加权局部稠密关系蒸馏 $\mathcal{L}^w$——通过类别对的 KL 散度传递细粒度知识，带 ADW 权重；(2) 剩余非目标知识蒸馏 $\mathcal{L}_{RNTK}$——确保递归解耦后的剩余知识不被丢失；(3) 局部 logit 知识完整性 $\mathcal{L}_{LLKI}$——在 top-d 类上做完整的局部 KL 蒸馏。总损失为 $\mathcal{L}_{LDRLD} = \mathcal{L}_{Task} + \alpha \mathcal{L}_{Local} + \beta \mathcal{L}_{RNTK}$。

关键设计¶

递归解耦与重组（LDRLD 核心）
- 功能：从学生 logit 输出中递归提取 top-d 类，两两组合形成类别对
- 核心思路：
  - Step 1：提取学生 logit 最大的类 $\mathbf{Z}_1^s$，用掩码 $\mathbf{M}_{\pi(1)}$（将对应位置设为 $-\infty$）从 logit 向量中移除
  - Step 2：递归提取第 2, 3, ..., d 大的类，每次与所有已提取的类组合为类别对。组合用 $\phi: \mathbb{R} \uplus \mathbb{R} \to \mathbb{R}^{1 \times 2}$
  - 最终生成 $\frac{d(d-1)}{2}$ 个类别对
  - Step 3：对每个类别对独立进行 softmax 归一化，计算 KL 散度
- 设计动机：局部 softmax 归一化使得每个类对中的概率差异被放大，增强了判别性。类对数量为 $O(d^2)$，提供了密集的关系信息
- 基础损失：$\mathcal{L} = \sum_{i=1}^{d-1}\sum_{j=i+1}^{d} [p_i^t \log(p_i^t/p_i^s) + p_j^t \log(p_j^t/p_j^s)]$
自适应衰减权重（ADW）策略
- 功能：为不同类别对动态分配不同的蒸馏权重
- 核心思路：包含两个组件：
  - 逆秩加权（IRW）：$\Gamma_{IRW}(R', R) = \frac{1}{|R - R'| + \epsilon}$，排名差距小的类对获得更大权重（$\epsilon = 1.50$）
  - 指数秩衰减（ERD）：$\Phi_{ERD}(R', R) = \delta \times \exp(-\lambda(R + R'))$，排名总和大的类对权重指数衰减（$\delta = 2.0, \lambda = 0.05$）
  - 组合权重：$\Omega_{ADW}(R', R) = \Gamma_{IRW} \times \Phi_{ERD}$
- 设计动机：
  - IRW 解决了"类对 [Z₁, Z₂] 比 [Z₁, Z₄] 更难区分"的问题
  - ERD 解决了"[Z₁, Z₂] 和 [Z₁₂, Z₁₃] 虽然排名差同为 1，但前者更重要"的问题
- 加权损失：$\mathcal{L}^w = \sum_{i=1}^{d-1}\sum_{j=i+1}^{d} \Omega_{ADW}(i,j)[p_i^t \log(p_i^t/p_i^s) + p_j^t \log(p_j^t/p_j^s)]$
剩余非目标知识蒸馏（RNTK）
- 功能：对递归解耦中未被选中的 $C - d$ 个类进行整体蒸馏
- 核心思路：$\mathcal{L}_{RNTK} = \mathcal{KL}(\bar{\mathcal{H}}^t, \bar{\mathcal{H}}^s) = \sum_{i=d+1}^C \bar{p}_i^t \log(\bar{p}_i^t / \bar{p}_i^s)$
- 设计动机：确保知识的完整性，避免因只关注 top-d 类而丢失尾部类的暗知识

损失函数 / 训练策略¶

总优化目标： $$\mathcal{L}_{LDRLD} = \mathcal{L}_{Task} + \alpha \mathcal{L}_{Local} + \beta \mathcal{L}_{RNTK}$$

其中 $\mathcal{L}_{Local} = \mathcal{L}^w + \mathcal{L}_{LLKI}$，$\alpha$ 和 $\beta$ 为平衡系数。

实验关键数据¶

主实验¶

CIFAR-100 同架构蒸馏：

教师→学生	KD	DKD	NKD	WTTM	LDRLD	Δ vs KD
ResNet56→ResNet20	70.66	71.97	71.18	71.92	72.20	+1.54
ResNet110→ResNet20	70.67	70.91	71.26	71.67	71.98	+1.31
ResNet32×4→ResNet8×4	73.33	76.32	76.35	76.06	77.20	+3.87
WRN-40-2→WRN-16-2	74.92	76.24	75.43	76.37	76.35	+1.43
VGG13→VGG8	72.98	74.68	74.86	74.44	75.06	+2.08

ImageNet-1K：

教师→学生	KD	DKD	WTTM	LDRLD	Δ vs KD
ResNet34→ResNet18 Top-1	70.66	71.70	72.19	71.88	+1.22
ResNet50→MobileNetV1 Top-1	70.49	72.05	73.09	73.12	+2.63

消融实验¶

CIFAR-100 异架构蒸馏（ResNet32×4→ShuffleNetV1）：

方法	Top-1 Acc	说明
KD	74.07	基线
DKD	76.45	解耦 target/non-target
NKD	76.31	归一化 non-target
FCFD	78.12	特征蒸馏
CAT-KD	78.26	类激活迁移
LDRLD	76.46	ADW + LDRLD + RNTK

关键发现¶

在 logit-based 方法中全面领先：LDRLD 在所有同架构对和大部分异架构对上超过 DKD、NKD、WTTM 等方法
大精度差架构对提升最大：ResNet32×4→ResNet8×4 提升 +3.87%，说明细粒度关系知识在能力差距大时更有价值
ImageNet-1K 大规模验证有效：在 ResNet50→MobileNetV1 上 +2.63%，表明方法不仅适用于小数据集
ADW 策略的关键作用：IRW 和 ERD 的组合确保了对关键类对的聚焦，同时避免了对低排名类对的过度关注
方法在 logit 方法中竞争力强，但相比部分 feature-based 方法（如 FCFD、CAT-KD）仍有差距

亮点与洞察¶

局部 softmax 增强判别性：通过将全局概率分解为两两局部概率，自然地放大了相似类间的概率差异，这个观察简洁而有力
ADW 的双层权重设计：IRW 基于排名差（类间距离），ERD 基于排名和（绝对位置），两者从不同角度刻画了类对的重要性
递归解耦的信息密度：$d$ 个类产生 $\frac{d(d-1)}{2}$ 个类对，提供了远比单一 KL 散度丰富的关系信息
知识完整性保障：RNTK 损失确保未被选中的尾部类知识不被遗忘，体现了设计的周全性

局限与展望¶

递归深度 $d$ 的选择需要调优，过大会引入不必要的低排名类对
计算复杂度为 $O(d^2)$，当 $d$ 较大时可能带来额外开销
ADW 中的超参数（$\epsilon = 1.50, \delta = 2.0, \lambda = 0.05$）为手动设定，自适应学习可能更优
仅在分类任务上验证，未扩展到检测、分割等任务
与 feature-based 方法（如 FCFD 的 78.12%）相比仍有差距，说明 logit 层信息的天花板

评分¶

新颖性: ⭐⭐⭐⭐ 递归解耦+局部 softmax 的组合是新颖的，ADW 策略设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ CIFAR-100/ImageNet-1K/Tiny-ImageNet，同架构/异架构，大量对比
写作质量: ⭐⭐⭐⭐ 图表清晰直观，方法描述严谨但公式较多
价值: ⭐⭐⭐⭐ 对 logit 蒸馏领域提供了新的细粒度建模视角，实验提升一致