Grounding and Enhancing Informativeness and Utility in Dataset Distillation¶
会议: ICLR 2026
arXiv: 2601.21296
代码: 无
领域: 数据集蒸馏
关键词: Dataset Distillation, Shapley Value, 梯度范数, 信息量, 效用
一句话总结¶
提出InfoUtil框架,用博弈论Shapley Value最大化样本信息量(找到最重要的patch),用梯度范数最大化样本效用(选择对训练最有价值的样本),在ImageNet-1K上比前SOTA提升6.1%。
研究背景与动机¶
领域现状:数据集蒸馏旨在从大数据集中合成小型数据集,使模型训练效果接近原始数据。主流方法分为匹配类(matching-based, 如梯度匹配/轨迹匹配)和知识蒸馏类。知识蒸馏类方法(如RDED)性能更好但缺乏理论解释。
现有痛点:匹配类方法效率与性能难以兼顾(如轨迹匹配需4×A100);知识蒸馏类方法(如RDED)用随机裁剪+启发式评分选patch,缺乏principled的理论保证——随机选的patch经常错过语义关键区域。
核心矛盾:如何在理论可解释的框架下同时解决两个问题:(1) 每个样本中哪些区域最重要(Informativeness)?(2) 哪些样本对训练最有价值(Utility)?
本文目标:为数据集蒸馏提供理论基础,定义最优蒸馏,并据此设计算法。
切入角度:提出Informativeness(patch级别,衡量信息量)和Utility(样本级别,衡量训练价值)两个概念,数学化定义最优蒸馏,用Shapley Value做信息量归因,用梯度范数做效用评估。
核心 idea:Shapley Value选最重要的patch + 梯度范数选最有价值的样本 = 理论有基础的最优蒸馏。
方法详解¶
整体框架¶
两步流水线:Step 1用Shapley Value对每个样本找最informative的patch进行压缩→得到压缩数据集 \(\mathcal{D}'\);Step 2用梯度范数评估每个压缩样本的训练价值→选top样本得到蒸馏数据集 \(\tilde{\mathcal{D}}\)。最后重建为正常大小图像并生成soft label。
关键设计¶
-
博弈论信息量最大化 (Game-theoretic Informativeness Maximization):
- 功能:用Shapley Value归因找到每个图像中最重要的patch
- 核心思路:将图像视为博弈游戏,每个patch是一个玩家,\(\phi_f(x^{(i)}) = \frac{1}{d}\sum_{s:s_i=0}\binom{d-1}{\mathbf{1}^\top s}(f(x\circ(s+e_i)) - f(x\circ s))\)。用KernelShap快速估计。选Shapley值最高的patch保留。
- 设计动机:Shapley Value是唯一同时满足线性、虚拟、对称、效率四条公理的归因方法,理论基础最扎实。
-
有原则的效用最大化 (Principled Utility Maximization):
- 功能:用梯度范数评估每个样本对训练的重要性并选top-m
- 核心思路:Theorem 1证明效用函数 \(\mathcal{U}\) 的上界是梯度范数:\(\mathcal{U}(x_i, y_i; f_{\theta^{(t)}}) \leq c\|\nabla_{\theta^{(t)}}\ell_t(f_{\theta^{(t)}}(x_i), y_i)\|\)
- 设计动机:直接计算Utility需要对每个样本做"有/无"实验,计算代价太高。梯度范数是可计算的上界,越大说明该样本对训练影响越大。
-
多样性控制:
- 功能:在Shapley归因热力图上加随机噪声引入patch选择的多样性
- 核心思路:\(\phi + \varepsilon\),\(\varepsilon \sim \mathcal{N}(0, \sigma^2)\)
- 设计动机:纯Shapley可能总是选同一区域,噪声让不同样本选择不同的informative区域
损失函数 / 训练策略¶
- Shapley Value用KernelShap快速估计(避免 \(2^{16}\) 次推理)
- 梯度范数用教师模型的中间检查点计算
- 压缩为1/4分辨率,4张压缩图拼成1张全尺寸图
- Soft label从教师模型中间检查点获取
实验关键数据¶
主实验¶
ResNet-18, IPC=50 (每类50张):
| 数据集 | 方法 | Top-1 Acc | 提升 |
|---|---|---|---|
| ImageNet-1K | RDED (前SOTA) | 基线 | — |
| ImageNet-1K | InfoUtil | 基线+6.1% | +6.1% |
| ImageNet-100 | RDED | 基线 | — |
| ImageNet-100 | InfoUtil | 基线+16% | +16% |
| CIFAR-10 IPC50 | RDED | 62.1 | — |
| CIFAR-10 IPC50 | InfoUtil | 71.0 | +8.9% |
消融实验¶
| 配置 | ImageNet-1K Acc | 说明 |
|---|---|---|
| Full InfoUtil | 最优 | Shapley + 梯度范数 |
| 随机patch (无Shapley) | 显著下降 | 信息量选择很关键 |
| 随机样本选择 (无梯度范数) | 下降 | 效用排序有价值 |
| 无多样性噪声 | 略降 | 多样性有帮助 |
关键发现¶
- Shapley Value选的patch对准了语义关键区域(如动物的头部而非背景),RDED的随机裁剪经常选到无关背景
- 梯度范数作为效用评估指标简单有效——高梯度范数样本确实对训练更重要
- 在ImageNet-1K这样的大规模数据集上提升仍然显著(6.1%),说明方法可扩展
- 跨架构泛化:用ResNet-18蒸馏的数据在ResNet-101上评估仍有显著提升
亮点与洞察¶
- 理论基础扎实:从Informativeness和Utility两个概念出发定义最优蒸馏(Definition 4),再用Shapley和梯度范数分别近似——整个流程有理论支撑而非启发式。
- Shapley Value做图像归因用于数据集蒸馏是首次,且效果远超随机裁剪。这个思路可以推广到其他需要"选最重要区域"的场景。
- 效用=梯度范数上界的定理(Theorem 1)给出直觉清晰的计算替代——梯度大的样本对训练"动量"影响大,应优先保留。
局限与展望¶
- Shapley Value计算即使用KernelShap仍有一定开销,在超大规模(>1M图像)上效率待验证
- 压缩为1/4分辨率是固定设置,自适应压缩率可能更优
- 梯度范数只用了一个检查点,多检查点的集成评估可能更鲁棒
- 仅在分类任务上验证,检测/分割等密集预测任务未探索
相关工作与启发¶
- vs RDED: RDED随机裁剪+启发式评分,InfoUtil用Shapley+梯度范数,理论性更强,性能好6.1%-16%
- vs SRe2L: SRe2L是另一种知识蒸馏方法,InfoUtil在所有IPC设置上都大幅超越
- vs 匹配类方法(MTT/DATM): 匹配类在小数据集上有竞争力但对大数据集不可扩展,InfoUtil兼顾大小数据集
评分¶
- 新颖性: ⭐⭐⭐⭐ Shapley Value用于蒸馏patch选择是首次,理论框架完整
- 实验充分度: ⭐⭐⭐⭐⭐ 7个数据集、3种架构、多IPC设置、跨架构泛化
- 写作质量: ⭐⭐⭐⭐ 理论定义清晰,定理证明完整
- 价值: ⭐⭐⭐⭐ 为数据集蒸馏提供了有理论基础的新范式
相关论文¶
- [ICLR 2026] Understanding Dataset Distillation via Spectral Filtering
- [CVPR 2025] Enhancing Dataset Distillation via Non-Critical Region Refinement
- [ICLR 2026] Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation
- [ICLR 2026] Dataset Distillation as Pushforward Optimal Quantization
- [NeurIPS 2025] Hyperbolic Dataset Distillation