UNSEEN: Enhancing Dataset Pruning from a Generalization Perspective¶

会议: AAAI 2026
arXiv: 2511.12988
代码: 无
领域: 图像生成 / 数据集优化
关键词: 数据集剪枝, 泛化性, 训练效率, 样本选择, 核心集

一句话总结¶

本文提出 UNSEEN，从泛化角度改进数据集剪枝方法——不仅考虑保留样本对训练损失的贡献，还考虑其对测试泛化的贡献，通过优化训练集与未见测试分布的对齐来选择更有利于泛化的核心子集。

领域现状：数据集剪枝（dataset pruning / coreset selection）旨在从大规模训练集中选择一个小的核心子集，使得在子集上训练可以接近在全集上训练的性能。这对降低训练成本至关重要。

现有痛点：（1）大多数数据集剪枝方法优化训练集上的损失，但这可能选出"容易拟合"而非"有利泛化"的样本；（2）忽略了未见数据的分布——选出的核心集可能在训练集上表现好但在测试集上泛化差；（3）冗余样本和边界样本的价值在不同场景下不同，需要更精细的衡量。

核心矛盾：训练效率 vs 泛化能力——为训练损失优化选出的子集不一定最有利于泛化。

本文目标：从泛化角度而非训练效率角度指导数据集剪枝。

切入角度：考虑核心集与未见（unseen）数据分布的对齐程度。

核心 idea：选择核心子集时不仅最小化训练误差，还最大化对未见数据分布的覆盖——确保选出的样本能帮助模型更好地泛化。

核心集选择的优化目标 = 训练误差最小化 + 分布对齐正则项 + 多样性约束。

数据集	剪枝比例	UNSEEN泛化精度	传统剪枝精度	随机子集精度
CIFAR-10	50%	最佳	次优	最差
ImageNet	30%	最佳	次优	最差