DP-GenG: Differentially Private Dataset Distillation Guided by DP-Generated Data¶

会议: AAAI2026
arXiv: 2511.09876
代码: shuoshiss/DP-GENG
领域: ai_safety
关键词: Differential Privacy, Dataset Distillation, DP-Generated Data, Feature Matching, Privacy Budget Allocation

一句话总结¶

提出 DP-GenG 框架，利用差分隐私生成数据（DP-generated data）引导数据集蒸馏的初始化、特征匹配和专家校准三个阶段，在有限隐私预算下显著提升蒸馏数据集的实用性和隐私保护能力。

背景与动机¶

数据集蒸馏（Dataset Distillation, DD）将大数据集压缩为小数据集，同时保持模型训练效果。虽然蒸馏后的数据集体积小，但近期研究表明标准 DD 方法没有形式化的隐私保证，仍可能泄露原始数据中的敏感信息，面临成员推断攻击（Membership Inference Attack, MIA）的风险。

现有的差分隐私数据集蒸馏（DP-DD）方法（如 PSG、NDPDC）通过在蒸馏过程中注入高斯噪声来提供隐私保证，但存在两个关键局限：

真实感不足（L1）：由于缺乏对自然数据的直接访问，蒸馏样本的视觉和语义一致性较差，通常采用随机高斯噪声初始化，导致蒸馏数据集质量低下
噪声过大（L2）：在有限隐私预算下，需要注入大量噪声，进一步降低数据集的质量和实用性；训练多个特征提取器需要分摊隐私预算，每个提取器分配到的预算更少

作者注意到近期 DP 合成数据生成技术（如 PE、PrivImage）可以产生与原始数据分布相近的合成数据，且根据 DP 的后处理性质，这些数据可以自由用于下游计算而不产生额外隐私开销。这一观察启发了本文的核心思路。

核心问题¶

如何利用 DP 生成数据引导蒸馏过程，解决现有 DP-DD 的真实感和噪声问题？
如何在有限隐私预算下最大化蒸馏数据集的实用性？

方法详解¶

DP-GenG 包含三个核心组件，均围绕 DP 生成数据展开：

1. DP 数据生成（DP Data Generation）¶

利用现有 DP 图像合成方法（如 PE 或 PrivImage）从原始私有数据集生成大量合成数据。这些方法在不同阶段注入高斯噪声以确保隐私：输入级、模型级或输出级。生成的合成数据集继承生成过程的隐私保证，根据 DP 后处理定理可自由用于后续计算而无额外隐私代价。本文采用 μ-GDP（Gaussian Differential Privacy）作为隐私度量框架，相比 RDP 可提供更紧的隐私界。

2. DP 特征匹配（DP Feature Matching）¶

特征匹配是蒸馏的核心算法，包含三个子步骤：

DP 生成数据初始化：用 DP 生成数据（而非高斯噪声）初始化蒸馏数据集。通过 k-means 聚类等策略从生成数据中选取代表性样本，并采用参数化技术将多张 DP 合成图像嵌入单张图像中，最大化信息利用。此举直接解决 L1 问题
DP 生成数据训练特征提取器：在 DP 生成数据上训练多个特征提取器，避免在私有数据上训练特征提取器带来的隐私开销。由于后处理性质，这些特征提取器不消耗额外隐私预算，解决 L2 问题
注入 DP 噪声的匹配：使用原始私有数据集进行特征匹配，在匹配过程中注入高斯噪声。先对特征进行裁剪（Clip）以限制灵敏度，再添加噪声。采用 GDP 的子采样定理，噪声量可按采样概率 \(p\) 比例缩减

3. DP 专家引导（DP Expert Guidance）¶

DP 噪声可能导致蒸馏样本的特征表示偏离其原始类别。为解决此问题，引入专家模型作为校准器：

先在 DP 生成数据上预训练，再用 DP-SGD 在原始私有数据上微调
对每个蒸馏样本，从同类的 DP 生成数据中采样参考点
通过 KL 散度损失对齐蒸馏样本与参考点的软标签分布，同时用交叉熵损失保持类别标签一致性
参考点来自 DP 生成数据，因此不产生额外隐私开销

4. 隐私预算分配策略¶

三个组件联合消耗隐私预算：生成 \(\mu_G\)、特征匹配 \(\mu_F\)、专家训练 \(\mu_E\)。总隐私参数通过 GDP 组合引理计算：\(\mu_{total} = \sqrt{\mu_G^2 + \mu_F^2 + \mu_E^2}\)。

分配策略：优先确定生成器和专家模型的噪声水平（通过二分搜索达到目标 FID 和目标准确率），再由总隐私预算反推特征匹配的噪声水平 \(\sigma_F\)。最终通过 GDP 到 \((\epsilon, \delta)\)-DP 的转换公式报告隐私保证。

实验关键数据¶

在 CIFAR-10、CIFAR-100、CelebA 上评估，使用 ConvNet 作为默认骨干网络：

数据集	IPC	ε=1 DP-GenG	ε=1 NDPDC	ε=10 DP-GenG	ε=10 NDPDC
CIFAR-10	50	56.9%	42.6%	65.5%	53.9%
CIFAR-100	50	25.9%	11.5%	32.3%	19.2%
CelebA	50	82.1%	80.4%	85.7%	82.3%

ε=10 时 CIFAR-10 上 DP-GenG（65.5%）接近无隐私保证的 DM（64.0%），且超过了 DM 在 IPC=10 时的表现
成员推断攻击实验：DP-GenG 在 TPR@0.1%FPR 指标上与 PSG/NDPDC 相当（约 0.10-0.14），远低于无 DP 的 DM（0.82），隐私保护有效

消融实验（CIFAR-10, IPC=50, ε=10）：

仅 DP 初始化：48.7%
仅 DP 特征匹配：53.2%
DP 初始化 + DP 特征匹配：60.8%
完整 DP-GenG（三组件）：65.5%

亮点¶

巧妙利用 DP 后处理性质：在 DP 生成数据上进行的所有操作（初始化、训练特征提取器、采样参考点）均不消耗额外隐私预算，这是方法高效利用隐私预算的关键
系统性框架：将 DP 生成数据贯穿蒸馏全流程的三个阶段，每个阶段针对性地解决一个具体问题
理论与实践统一：提供了完整的隐私分析和预算分配策略，并通过 GDP 框架获得比 RDP 更紧的隐私界
实验全面：在更具挑战性的数据集（CIFAR-100）上验证，且包含 MIA 攻击评估和多架构泛化实验

局限性 / 可改进方向¶

依赖 DP 生成器质量：框架性能上限受 DP 数据生成器（PE/PrivImage）质量制约，若生成器在复杂数据集上表现不佳，整体性能将受限
图像领域限定：仅在图像分类任务上验证，表格数据、文本数据等其他模态的适用性未探讨
计算开销：需要先训练 DP 生成器生成大量合成数据，再训练多个特征提取器和专家模型，计算成本高于直接蒸馏
隐私预算分配：目标 FID 和目标准确率的选择仍需人工调参，缺乏自动化策略

与相关工作的对比¶

方法	类型	隐私框架	初始化	特征提取器	噪声校准
PSG	梯度匹配 DP-DD	RDP	高斯噪声	无	无
NDPDC	分布匹配 DP-DD	RDP	高斯噪声	随机初始化	无
DP-GenG	特征匹配 DP-DD	GDP	DP 生成数据	DP 生成数据训练	专家模型

与 DP 合成数据生成方法（PE、PrivImage）的区别：后者直接生成大量合成数据作为输出，而 DP-GenG 用生成数据辅助蒸馏过程，在相同存储预算下蒸馏数据集更紧凑且更具信息量。

启发与关联¶

DP 后处理性质是一个强大但常被低估的工具——一旦有了满足 DP 的中间产物，所有后续操作都"免费"，这一思路可推广到其他隐私保护学习场景
将"先生成再蒸馏"作为两阶段流水线的思路，可以类比到联邦学习中：先用 DP 机制聚合生成全局合成数据，再用合成数据指导本地蒸馏
专家模型校准偏移的思路类似知识蒸馏中教师模型的角色，可以探索更轻量的替代方案

评分¶

新颖性: 8/10 — 将 DP 生成数据系统性地融入 DD 全流程是新颖的组合创新
实验充分度: 8/10 — 数据集难度提升，消融和 MIA 评估完善，但缺少更大规模数据集
写作质量: 8/10 — 问题动机清晰，框架描述系统
价值: 8/10 — 为隐私保护数据集蒸馏建立了新范式，实用意义较强