跳转至

Privacy Amplification Through Synthetic Data: Insights from Linear Regression

会议: ICML 2025
arXiv: 2506.05101
代码: 无
领域: 差分隐私 / 合成数据
关键词: 差分隐私, 隐私放大, 合成数据, 线性回归, f-DP, Rényi散度

一句话总结

在线性回归框架下,证明了合成数据在对抗者控制种子时无法提供隐私放大,但在随机输入下释放有限数量的合成数据可以获得超越模型本身DP保证的隐私放大效果,放大程度为 \(O(1/d)\)

研究背景与动机

差分隐私(DP)是隐私保护的黄金标准。训练DP生成模型后,合成数据继承模型的DP保证(后处理定律)。但经验研究表明,合成数据实际上可能比模型本身提供更强的隐私保护

核心问题:释放合成数据(而非模型本身)是否存在隐私放大效应?

  • 后处理定律给出的是上界——是否过于保守?
  • 直觉:当释放的合成数据点数远小于模型复杂度时,隐私泄露应该减少
  • 但此前缺乏严格的理论分析

方法论选择:以线性回归为研究框架,因为: 1. 分析可解 2. 足够表达——能捕捉双重下降、模型坍塌等现象 3. 为更复杂模型的推广奠定基础

方法详解

整体框架

使用 f-DPRényi DP (RDP) 框架分析。设置: - 数据集 \(\mathcal{D} = (X, Y)\)\(X \in \mathbb{R}^{d \times m}\), \(Y \in \mathbb{R}^{n \times m}\) - 线性模型 \(\hat{Y} = wX\) - 输出扰动机制:\(\mathcal{M}(\mathcal{D}) = \arg\min_w F_\lambda(w; \mathcal{D}) + \sigma_\theta N\)

关键设计

第一部分:固定种子——负面结果(Section 3)

对抗者控制种子 \(z\)

Proposition 3.1(输出扰动):对任意固定 \(z \in \mathbb{R}^d\),存在邻近数据集 \(\mathcal{D}, \mathcal{D}'\) 使得: $\(T(Vz, Wz) = T(V, W)\)$ 即单个合成数据点就能泄露与释放整个模型相同的隐私。

原因:对抗者可以选择 \(z\)\(\mu = w^* - v^*\) 的最大奇异值对应的右奇异向量,最大化信号-噪声比。

Proposition 3.3(噪声梯度下降):同样的负面结果适用于NGD训练的模型。

第二部分:随机种子——正面结果(Section 4)

Definition 4.1:种子 \(Z \in \mathbb{R}^{d \times l}\)\(Z_{ij} \sim \mathcal{N}(0, \sigma_z^2)\),释放 \(\mathcal{M}_Z(v) = \mathcal{M}(v)Z\)

核心洞察:\(VZ\) 可以分解为独立项之和 \(VZ = \sum_{k=1}^d V_k Z_k\),应用CLT逼近。

Lemma 4.3(单点情况 \(n=l=1\)): $\(TV(\sqrt{d}(\sigma_\theta N + v)Z, \sigma_z\sqrt{d\sigma_\theta^2 + \|v\|^2} G) \leq \frac{A_{\|v\|}}{d}\)$

\(VZ\)\(WZ\) 趋近于方差不同(而非均值不同)的高斯分布,隐私问题从"均值漂移"变为"方差漂移"。

Theorem 4.3(单点隐私放大):trade-off函数 \(T(VZ, WZ)\)\(O(1/d)\) 速率收敛到方差不同高斯的trade-off函数。

Rényi散度的渐近结果: $\(D_\alpha(\nu_{v_*}^d, \nu_{w_*}^d) = \frac{\alpha\Delta^2}{4d\sigma_\theta^2} + o(d^{-1}) \approx \frac{1}{2d} D_\alpha(V, W)\)$ 暗示 \(O(1/d)\) 级别的隐私放大。

第三部分:多点释放(Section 4.3)

利用Li & Woodruff (2021)的高斯矩阵乘积收敛结果:

Theorem 4.5(带漂移的高斯矩阵乘积收敛): $\(TV((\sigma_\theta N + v)Z, \sigma_\theta\sqrt{d-s}G + vZ') \leq C'\sqrt{\frac{nls}{d-s}}\)$

其中 \(s = \text{rank}(v)\)关键性质:界不依赖于漂移 \(v\) 的范数。

Theorem 4.6\(l\)\(n\) 维合成点的Rényi散度: $\(D_\alpha(G_v, G_w) \leq \frac{\alpha nl \Delta^2}{4(d-n)\sigma_\theta^2} + o(d^{-1})\)$

损失函数 / 训练策略

本文为理论分析工作,不涉及训练。核心技术工具包括: - f-DP的trade-off函数框架 - 非渐近CLT(Bally & Caramellino, 2016) - 高斯矩阵乘积的TV收敛(Li & Woodruff, 2021) - Pinsker不等式 + KL散度链式法则

实验关键数据

主实验

数值验证(单点释放, Figure 2): - 使用Monte Carlo估计Rényi散度 \(D_\alpha(VZ, WZ)\)\(L=10^6\) 样本,\(M=50\) 次重复) - 在高隐私regime (\(\Delta < 1\)) 下,\(l_\alpha(h) \approx O(1/d)\) 的衰减趋势得到验证

多点释放(Figure 3, \(l=10, n=1\)): - Rényi散度随 \(d\) 的增长呈 \(O(d^{-1/2})\) 衰减(固定 \(l, n\)

关键发现

场景 隐私放大? 放大程度
固定种子(对抗者控制) ❌ 无 \(T(Vz,Wz) = T(V,W)\)
随机种子,释放1点 (\(l=1, n=1\)) ✅ 有 \(\approx \frac{1}{2d} D_\alpha(V,W)\)
随机种子,释放 \(l\) 点 (\(n\) 维) ✅ 有 \(\approx \frac{nl}{2(d-n)} D_\alpha(V,W)\)

条件:\(d \geq \max\{n, l\}\)

亮点与洞察

  1. 正反两面的完整图景:既证明了固定种子下无法放大(负面),又证明了随机种子下的放大(正面),揭示了随机性隐藏是隐私放大的关键
  2. "均值漂移→方差漂移"的优美转换:合成数据生成将两个分布之间的均值差异转化为方差差异,本质上"稀释"了隐私信号
  3. 不依赖漂移范数的界(Theorem 4.5):带漂移版本的高斯矩阵乘积收敛结果是独立有趣的数学贡献
  4. 组合性质:多点释放的结果自然体现为单点机制的组合,\(nl\) 因子线性增长
  5. 两全其美:DP生成模型同时享有后处理保证(大量释放时)和组合保证(少量释放时,更优)

局限与展望

  1. 仅限线性回归:结论对非线性生成模型的推广尚不清楚
  2. CLT常数的保守性:非渐近CLT的常数可能导致小 \(d\) 时界不紧(Figure 2中的初始平台)
  3. \(d \geq \max\{n, l\}\) 的限制:需要模型维度大于输出维度和释放数量,不适用于低维模型
  4. Rényi散度界的间接性:trade-off函数的 \(O(1/d)\) 收敛不直接蕴含Rényi散度的 \(O(1/d)\) 收敛,需要数值验证
  5. 高斯种子假设:实际生成模型的输入分布可能不是高斯的
  6. Li & Woodruff (2021) 的 Theorem 4.7:当 \(d < \max\{n,l\}\) 时高斯乘积不收敛,说明放大效应有本质限制

相关工作与启发

  • DP合成数据生成:Zhang et al. (2017), McKenna et al. (2019, 2021), Dockhorn et al. (2023) 等
  • 隐私放大:Balle et al. (2018), Feldman et al. (2018)的迭代隐私放大,与本文设置不同
  • 高斯矩阵乘积:Li & Woodruff (2021) 的TV收敛定理是多点分析的基础
  • f-DP框架:Dong et al. (2022) 的trade-off函数提供了精细的隐私分析工具
  • Neunhoeffer et al. (2024):证明了简单一维模型的合成数据DP,但设置更简单
  • 启发:"隐藏随机性"作为隐私放大机制的思想可能推广到更一般的后处理场景

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次严格分析合成数据的隐私放大,正反结果互补
  • 实验充分度: ⭐⭐⭐ — 以理论为主,数值验证支撑理论预测
  • 写作质量: ⭐⭐⭐⭐⭐ — 论文结构清晰,从简单到复杂层层递进
  • 价值: ⭐⭐⭐⭐ — 为合成数据隐私提供了理论基础,尽管限于线性回归

相关论文