DP-GenG: Differentially Private Dataset Distillation Guided by DP-Generated Data¶
会议: AAAI2026
arXiv: 2511.09876
代码: shuoshiss/DP-GENG
领域: ai_safety
关键词: Differential Privacy, Dataset Distillation, DP-Generated Data, Feature Matching, Privacy Budget Allocation
一句话总结¶
提出 DP-GenG 框架,利用差分隐私生成数据(DP-generated data)引导数据集蒸馏的初始化、特征匹配和专家校准三个阶段,在有限隐私预算下显著提升蒸馏数据集的实用性和隐私保护能力。
背景与动机¶
数据集蒸馏(Dataset Distillation, DD)将大数据集压缩为小数据集,同时保持模型训练效果。虽然蒸馏后的数据集体积小,但近期研究表明标准 DD 方法没有形式化的隐私保证,仍可能泄露原始数据中的敏感信息,面临成员推断攻击(Membership Inference Attack, MIA)的风险。
现有的差分隐私数据集蒸馏(DP-DD)方法(如 PSG、NDPDC)通过在蒸馏过程中注入高斯噪声来提供隐私保证,但存在两个关键局限:
- 真实感不足(L1):由于缺乏对自然数据的直接访问,蒸馏样本的视觉和语义一致性较差,通常采用随机高斯噪声初始化,导致蒸馏数据集质量低下
- 噪声过大(L2):在有限隐私预算下,需要注入大量噪声,进一步降低数据集的质量和实用性;训练多个特征提取器需要分摊隐私预算,每个提取器分配到的预算更少
作者注意到近期 DP 合成数据生成技术(如 PE、PrivImage)可以产生与原始数据分布相近的合成数据,且根据 DP 的后处理性质,这些数据可以自由用于下游计算而不产生额外隐私开销。这一观察启发了本文的核心思路。
核心问题¶
- 如何利用 DP 生成数据引导蒸馏过程,解决现有 DP-DD 的真实感和噪声问题?
- 如何在有限隐私预算下最大化蒸馏数据集的实用性?
方法详解¶
DP-GenG 包含三个核心组件,均围绕 DP 生成数据展开:
1. DP 数据生成(DP Data Generation)¶
利用现有 DP 图像合成方法(如 PE 或 PrivImage)从原始私有数据集生成大量合成数据。这些方法在不同阶段注入高斯噪声以确保隐私:输入级、模型级或输出级。生成的合成数据集继承生成过程的隐私保证,根据 DP 后处理定理可自由用于后续计算而无额外隐私代价。本文采用 μ-GDP(Gaussian Differential Privacy)作为隐私度量框架,相比 RDP 可提供更紧的隐私界。
2. DP 特征匹配(DP Feature Matching)¶
特征匹配是蒸馏的核心算法,包含三个子步骤:
- DP 生成数据初始化:用 DP 生成数据(而非高斯噪声)初始化蒸馏数据集。通过 k-means 聚类等策略从生成数据中选取代表性样本,并采用参数化技术将多张 DP 合成图像嵌入单张图像中,最大化信息利用。此举直接解决 L1 问题
- DP 生成数据训练特征提取器:在 DP 生成数据上训练多个特征提取器,避免在私有数据上训练特征提取器带来的隐私开销。由于后处理性质,这些特征提取器不消耗额外隐私预算,解决 L2 问题
- 注入 DP 噪声的匹配:使用原始私有数据集进行特征匹配,在匹配过程中注入高斯噪声。先对特征进行裁剪(Clip)以限制灵敏度,再添加噪声。采用 GDP 的子采样定理,噪声量可按采样概率 \(p\) 比例缩减
3. DP 专家引导(DP Expert Guidance)¶
DP 噪声可能导致蒸馏样本的特征表示偏离其原始类别。为解决此问题,引入专家模型作为校准器:
- 先在 DP 生成数据上预训练,再用 DP-SGD 在原始私有数据上微调
- 对每个蒸馏样本,从同类的 DP 生成数据中采样参考点
- 通过 KL 散度损失对齐蒸馏样本与参考点的软标签分布,同时用交叉熵损失保持类别标签一致性
- 参考点来自 DP 生成数据,因此不产生额外隐私开销
4. 隐私预算分配策略¶
三个组件联合消耗隐私预算:生成 \(\mu_G\)、特征匹配 \(\mu_F\)、专家训练 \(\mu_E\)。总隐私参数通过 GDP 组合引理计算:\(\mu_{total} = \sqrt{\mu_G^2 + \mu_F^2 + \mu_E^2}\)。
分配策略:优先确定生成器和专家模型的噪声水平(通过二分搜索达到目标 FID 和目标准确率),再由总隐私预算反推特征匹配的噪声水平 \(\sigma_F\)。最终通过 GDP 到 \((\epsilon, \delta)\)-DP 的转换公式报告隐私保证。
实验关键数据¶
在 CIFAR-10、CIFAR-100、CelebA 上评估,使用 ConvNet 作为默认骨干网络:
| 数据集 | IPC | ε=1 DP-GenG | ε=1 NDPDC | ε=10 DP-GenG | ε=10 NDPDC |
|---|---|---|---|---|---|
| CIFAR-10 | 50 | 56.9% | 42.6% | 65.5% | 53.9% |
| CIFAR-100 | 50 | 25.9% | 11.5% | 32.3% | 19.2% |
| CelebA | 50 | 82.1% | 80.4% | 85.7% | 82.3% |
- ε=10 时 CIFAR-10 上 DP-GenG(65.5%)接近无隐私保证的 DM(64.0%),且超过了 DM 在 IPC=10 时的表现
- 成员推断攻击实验:DP-GenG 在 TPR@0.1%FPR 指标上与 PSG/NDPDC 相当(约 0.10-0.14),远低于无 DP 的 DM(0.82),隐私保护有效
消融实验(CIFAR-10, IPC=50, ε=10):
- 仅 DP 初始化:48.7%
- 仅 DP 特征匹配:53.2%
- DP 初始化 + DP 特征匹配:60.8%
- 完整 DP-GenG(三组件):65.5%
亮点¶
- 巧妙利用 DP 后处理性质:在 DP 生成数据上进行的所有操作(初始化、训练特征提取器、采样参考点)均不消耗额外隐私预算,这是方法高效利用隐私预算的关键
- 系统性框架:将 DP 生成数据贯穿蒸馏全流程的三个阶段,每个阶段针对性地解决一个具体问题
- 理论与实践统一:提供了完整的隐私分析和预算分配策略,并通过 GDP 框架获得比 RDP 更紧的隐私界
- 实验全面:在更具挑战性的数据集(CIFAR-100)上验证,且包含 MIA 攻击评估和多架构泛化实验
局限性 / 可改进方向¶
- 依赖 DP 生成器质量:框架性能上限受 DP 数据生成器(PE/PrivImage)质量制约,若生成器在复杂数据集上表现不佳,整体性能将受限
- 图像领域限定:仅在图像分类任务上验证,表格数据、文本数据等其他模态的适用性未探讨
- 计算开销:需要先训练 DP 生成器生成大量合成数据,再训练多个特征提取器和专家模型,计算成本高于直接蒸馏
- 隐私预算分配:目标 FID 和目标准确率的选择仍需人工调参,缺乏自动化策略
与相关工作的对比¶
| 方法 | 类型 | 隐私框架 | 初始化 | 特征提取器 | 噪声校准 |
|---|---|---|---|---|---|
| PSG | 梯度匹配 DP-DD | RDP | 高斯噪声 | 无 | 无 |
| NDPDC | 分布匹配 DP-DD | RDP | 高斯噪声 | 随机初始化 | 无 |
| DP-GenG | 特征匹配 DP-DD | GDP | DP 生成数据 | DP 生成数据训练 | 专家模型 |
与 DP 合成数据生成方法(PE、PrivImage)的区别:后者直接生成大量合成数据作为输出,而 DP-GenG 用生成数据辅助蒸馏过程,在相同存储预算下蒸馏数据集更紧凑且更具信息量。
启发与关联¶
- DP 后处理性质是一个强大但常被低估的工具——一旦有了满足 DP 的中间产物,所有后续操作都"免费",这一思路可推广到其他隐私保护学习场景
- 将"先生成再蒸馏"作为两阶段流水线的思路,可以类比到联邦学习中:先用 DP 机制聚合生成全局合成数据,再用合成数据指导本地蒸馏
- 专家模型校准偏移的思路类似知识蒸馏中教师模型的角色,可以探索更轻量的替代方案
评分¶
- 新颖性: 8/10 — 将 DP 生成数据系统性地融入 DD 全流程是新颖的组合创新
- 实验充分度: 8/10 — 数据集难度提升,消融和 MIA 评估完善,但缺少更大规模数据集
- 写作质量: 8/10 — 问题动机清晰,框架描述系统
- 价值: 8/10 — 为隐私保护数据集蒸馏建立了新范式,实用意义较强