Heavy Labels Out! Dataset Distillation with Label Space Lightening¶

会议: ICCV 2025
arXiv: 2408.08201
代码: 即将公开
领域: 模型压缩 / Dataset Distillation
关键词: 数据集蒸馏, 软标签压缩, CLIP, LoRA, 标签空间轻量化

一句话总结¶

提出 HeLlO 框架，利用 CLIP 预训练模型和 LoRA-like 低秩知识迁移构建轻量级图像-标签投影器，将数据集蒸馏中软标签的存储需求降低至原来的 0.003%，同时保持甚至超越 SOTA 性能。

研究背景与动机¶

数据集蒸馏旨在将大规模训练集压缩为极小的合成集。当前 SOTA 方法（SRe2L、G_VBSM、RDED）虽然大幅减少了图像数量，但严重依赖预训练教师模型生成的大量软标签来保持性能。

核心问题：软标签的存储开销巨大，甚至可与原始数据集相当。例如： - ImageNet-1K, IPC=1：图像仅 ~15MB，但软标签超过 572MB（38 倍） - ImageNet-1K, IPC=200：软标签达 110GB，与原始数据集相当 - 原因：每次数据增强都会生成独立的 C 维软标签（C=类别数），总量 = K（迭代数）× N_s（样本数）× C

这揭示了当前蒸馏方法的一个被忽视的瓶颈：蒸馏了图像但没有蒸馏标签。

方法详解¶

整体框架¶

HeLlO 框架用一个轻量级的在线投影器替代离线存储的海量软标签： 1. 基于 CLIP 图像编码器 + 线性变换构建投影器 2. 用文本嵌入初始化线性变换部分（零存储成本） 3. LoRA-like 低秩矩阵微调投影器至目标分布 4. 可选的图像更新以减少投影器误差 5. 下游训练时在线生成软标签

关键设计¶

基于文本嵌入的投影器初始化:
- 利用 CLIP 的视觉-语言对齐能力，用各类别文本描述的归一化嵌入初始化线性变换 $W = (v_T)^T$
- 数学等价性证明：文本嵌入初始化等价于预训练零样本分类（Proposition 1）
- 无需额外存储（文本描述由固定 prompt 模板生成）
- 设计动机：提供强起点，使投影器从预训练零样本能力出发进一步适配
LoRA-Like 低秩知识迁移:
- 分解权重增量 $\Delta\theta = A \cdot B$，其中 $A \in \mathbb{R}^{d \times r}$, $B \in \mathbb{R}^{r \times k}$, $r \ll d, k$
- 同时对 CLIP 图像编码器的卷积层和线性变换部分应用 LoRA（不同 rank）
- 训练目标结合多弱教师知识蒸馏和交叉熵： $\mathcal{L}(\mathcal{D};\theta) = MSE(f_\theta(X), Y') + \lambda CE(f_\theta(X), Y)$
- 弱教师来自 ResNet-18 训练轨迹的不同阶段（9 个 checkpoint）
- 设计动机：最小化微调成本的同时缩小预训练分布与目标分布的差距
合成数据集初始化与更新:
- 初始化遵循 RDED：根据教师模型评估的难度选择最具代表性的图像 patch 并拼接
- 额外的图像更新步骤：最小化原始分辨率与下采样再上采样版本在 CLIP 特征空间的差异 $\mathcal{G}(\mathcal{E}_I, p) = MSE(\mathcal{E}_I(p), \mathcal{E}_I(\hat{p}))$
- 设计动机：由于使用了替代投影器而非原始教师，需要更新图像以减少投影器上的信息损失

损失函数 / 训练策略¶

下游训练时的损失函数： $$\phi^e = \phi^{e-1} - \alpha \nabla_\phi (MSE(f_\phi(\mathcal{A}(X_s)), Y^*) + \beta CE(f_\phi(\mathcal{A}(X_s)), Y_s))$$ - $Y^*$ 由投影器在线生成（而非预存储） - 配置：ImageNet-100 rank=8/64，ImageNet-1K rank=8/128

实验关键数据¶

主实验（ResNet-18 Top-1 Accuracy, %）¶

数据集	IPC	SRe2L	G_VBSM	RDED	HeLlO	标签存储比
IN-100	1	3.0	-	8.1	12.5 (+4.4)	0.1×
IN-100	10	9.5	-	36.0	48.9 (+12.9)	0.01×
IN-100	50	27.0	-	61.6	69.4 (+7.8)	0.002×
IN-1K	1	0.1	1.7	6.6	12.9 (+6.3)	1e-4×
IN-1K	10	21.3	31.4	42.0	43.7 (+1.7)	1e-5×
IN-1K	50	46.8	51.8	56.5	52.2 (-)	3e-6×

教师模型参数量：RDED 10.7M vs HeLlO 仅 0.8M (0.07×)

消融实验¶

跨架构泛化（IN-1K, IPC=10）：

架构	RDED	HeLlO	提升
ShuffleNet-V2	23.3	26.5	+3.2
MobileNet-V2	34.4	38.1	+3.7
EfficientNet-B0	42.8	44.4	+1.6
Swin-V2-Tiny	17.8	29.5	+11.7
VGG-11	22.7	24.2	+1.5

各组件增量消融（IN-1K, IPC=10）：

配置	Acc.	#Params
Probe Linear CLIP	28.2	1.0M
+ Multi-Weak-Teacher	30.1 (+1.9)	1.0M
+ LoRA Knowledge Transfer	43.5 (+13.4)	1.5M
+ Text-Embedding Init	43.6 (+0.1)	0.8M (↓0.7M)
+ Image Update	43.7 (+0.1)	0.8M

关键发现¶

LoRA 知识迁移是最关键组件：带来 +13.4% 的巨大提升，将预训练嵌入有效适配到目标分布
文本嵌入初始化双重作用：虽然精度提升仅 0.1%，但实际上减少了 0.7M 参数存储（不需要存储初始线性变换参数）
HeLlO 在小 IPC 和 Transformer 架构上优势最显著：IN-100 IPC=10 超 RDED 12.9%；Swin-V2-Tiny 上超 RDED 11.7%
大规模场景有局限：IN-1K IPC=50 时 HeLlO 低于 RDED 4.3%，说明投影器在极大标签空间中精度不足

亮点与洞察¶

问题定义精准：首次聚焦数据集蒸馏中被忽视的"标签膨胀"问题，指出蒸馏了图像却没蒸馏标签
巧妙利用 CLIP 的视觉-语言对齐：文本嵌入初始化实现了零额外存储成本的强起点
极致压缩比：0.003% 的标签存储即可获得可比性能
LoRA 在新场景的应用：将 LoRA 从 LLM 微调推广到数据集蒸馏中的投影器构建
跨架构泛化：特别是在 Transformer 架构上的显著优势值得关注

局限与展望¶

大规模 + 大 IPC 场景（IN-1K IPC=50）性能仍不及 RDED，投影器精度有限
依赖 CLIP 预训练模型，对 CLIP 覆盖不好的领域（如医学影像）效果可能受限
弱教师的选择（训练轨迹中的 checkpoint 阶段）是超参数，需要针对不同 IPC 调整
图像更新步骤的增益较小（仅 +0.1%），成本效益比需评估
投影器实际推理时需要调用 CLIP 编码器，下游训练增加了在线计算开销

评分¶

新颖性: ⭐⭐⭐⭐ 首次关注软标签存储问题，解决方案巧妙但核心是已有技术的组合
实验充分度: ⭐⭐⭐⭐ 多数据集、多架构、完整消融，但缺少更多大规模场景验证
写作质量: ⭐⭐⭐⭐ 问题和方法阐述清晰，数学推导完善
价值: ⭐⭐⭐⭐ 解决了数据集蒸馏中的实际瓶颈，对大规模蒸馏有重要意义