Enhancing Dataset Distillation via Non-Critical Region Refinement¶

会议: CVPR 2025
arXiv: 2503.18267
代码: https://github.com/tmtuan1307/NRR-DD
领域: 模型压缩
关键词: 数据集蒸馏、非关键区域优化、类激活映射、软标签压缩、距离表示

一句话总结¶

提出NRR-DD三阶段框架：用CAM选低置信度patch初始化合成图像、固定关键区域仅优化非关键区域提升信息密度、用2个距离值替代1000维软标签实现500倍存储压缩。在ImageNet-1K上IPC=10时达到46.1%（超RDED 25.7%），软标签存储从120GB降至0.2GB。

研究背景与动机¶

领域现状：大规模数据集蒸馏方法分为两类——关注类通用特征的方法（如SRe2L，学共性但丢细节）和关注实例特异特征的方法（如RDED，选真实patch但缺共性）。

现有痛点：（1）两类方法各有偏向，合成图像难以同时捕获类通用和实例特异特征；（2）大规模软标签存储成本巨大——ImageNet1K IPC=200需120GB存储1000维软标签，不切实际。

核心矛盾：RDED选取的真实patch已包含丰富的实例特征，但非关键区域（背景等）未被充分利用；同时1000维软标签存储是大规模DD部署的瓶颈。

本文目标 在保留真实patch实例特异性的同时增强类通用特征学习，并解决软标签的存储瓶颈。

切入角度：用CAM识别关键/非关键区域，固定关键区域（保留实例特征）、优化非关键区域（注入类通用特征）；用2个距离值替代全维度软标签。

核心 idea：固定高CAM区域保留实例特征、优化低CAM区域注入类通用知识、用距离表示压缩软标签500倍。

方法详解¶

整体框架¶

三阶段：（1）CIDD阶段用CAM选出最低置信度（非最高）的patch组合成合成图像；（2）NRR阶段固定CAM高激活区域，仅对非关键区域做梯度下降优化（交叉熵+BN正则化），让低置信度patch的非关键区域学到类通用特征；（3）DBR阶段用教师模型计算每个合成图像软标签与原始/增强one-hot标签的交叉熵距离，仅存2个距离值替代1000维向量。

关键设计¶

基于CAM的低置信度初始化（CIDD）:
- 功能：选择最有优化空间的patch初始化合成图像
- 核心思路：用CAM识别原图的高激活区域并提取top-t个patch，但与RDED不同，选择置信度最低的patch而非最高的。将\(\beta\)个低置信度patch拼接成一张合成图像。低置信度patch包含判别性特征但教师模型不太确信，因此在后续NRR阶段有最大的优化空间
- 设计动机：高置信度patch已被模型很好识别，优化空间小；低置信度patch有更多可改进的非关键区域
非关键区域优化（NRR）:
- 功能：在保留实例特征的同时注入类通用特征
- 核心思路：用CAM生成非关键区域掩码\(M = \max\{0, \epsilon - C\}\)，仅对掩码覆盖的像素施加梯度更新\(\tilde{x} = \tilde{x} - M \times \eta \nabla_{\tilde{x}} \mathcal{L}_C\)。损失包含交叉熵（让低置信度样本向高置信区域移动）和BN统计正则化（对齐原始模型的running statistics）
- 设计动机：关键区域已有实例特异特征不应被破坏；非关键区域（背景等）是"空白画布"，优化它们可以注入有助于类别整体识别的通用特征
距离表示软标签压缩（DBR）:
- 功能：将1000维软标签压缩为2个标量
- 核心思路：计算教师软标签与原始one-hot标签的交叉熵距离\(d_{org}\)，以及与增强one-hot标签的交叉熵距离\(d_{aug}\)。训练学生模型时用距离匹配损失代替直接KD：让学生模型的预测与one-hot的距离匹配教师的距离。每个样本仅需存2个float值
- 设计动机：存储ImageNet1K的全维度软标签需120GB（IPC=200），不可行。2个距离值可恢复软标签60-71%的性能，存储仅0.2GB

损失函数 / 训练策略¶

NRR阶段：\(\mathcal{L}_C = \mathcal{L}_{ce} + \alpha_{bn}\mathcal{L}_{bn}\)。学生训练阶段：\(\mathcal{L}_S = \mathcal{L}_{sce} + \alpha_{dbr}\mathcal{L}_{dbr}\)。

实验关键数据¶

主实验¶

数据集	IPC	NRR-DD	RDED	SRe2L	提升(vs RDED)
CIFAR-10	10	72.2%	50.2%	29.3%	+22.0%
CIFAR-100	10	62.7%	48.1%	27.0%	+14.6%
Tiny-ImageNet	50	61.2%	47.6%	41.1%	+13.6%
ImageNet-1K	10	46.1%	20.4%	21.3%	+25.7%
ImageNet-1K	50	60.2%	38.4%	46.8%	+21.8%

软标签压缩¶

方法	ImageNet1K IPC=50	存储	说明
完整软标签	60.2%	120GB	基线
DBR (2个距离)	45.1%	0.2GB	500倍压缩，恢复60%性能
One-hot	32.4%	~0	丢失太多信息

关键发现¶

NRR在所有数据集和IPC设置上均大幅超越RDED和SRe2L，优势在大规模数据集上尤其明显（ImageNet-1K +25%）
选低置信度patch比高置信度更好，因为优化空间大——"越差越有潜力"的反直觉策略
非关键区域优化是核心创新，固定关键区域只改背景就能带来如此大的提升，说明背景/非关键区域的信息对分类至关重要
DBR的2个距离值方案在巨大的压缩比（500×）下仍保留了可观的软标签信息

亮点与洞察¶

"固定主体、优化背景"的反直觉设计：传统思路关注如何更好地提取主体特征,但NRR-DD发现背景/非关键区域也承载大量类别判别信息
低置信度选择的深层原因：低置信度patch不是噪声——它们包含判别特征但方式不典型，NRR优化后变成了"有独特视角的好样本"
DBR软标签压缩的优雅性：将1000维信息压缩为2个距离值，本质上保留了"软标签离one-hot有多远"这个最关键的知识蒸馏信号

局限与展望¶

DBR虽压缩500倍但性能损失仍较大（60%恢复率），改进距离表示可能进一步提升
CAM质量依赖预训练模型，模型不好时关键/非关键区域划分不准确
NRR阶段的优化迭代次数需要调节

评分¶

新颖性: ⭐⭐⭐⭐⭐ 非关键区域优化的想法独特，低置信度选择+背景优化的组合新颖
实验充分度: ⭐⭐⭐⭐⭐ CIFAR到ImageNet-1K全覆盖，软标签压缩实验丰富
写作质量: ⭐⭐⭐⭐ 三阶段结构清晰，动机分析充分
价值: ⭐⭐⭐⭐⭐ 性能提升巨大+存储压缩实用，对DD领域有重要推动