Privacy Amplification Through Synthetic Data: Insights from Linear Regression¶

会议: ICML 2025
arXiv: 2506.05101
代码: 无
领域: 差分隐私 / 合成数据
关键词: 差分隐私, 隐私放大, 合成数据, 线性回归, f-DP, Rényi散度

一句话总结¶

在线性回归框架下，证明了合成数据在对抗者控制种子时无法提供隐私放大，但在随机输入下释放有限数量的合成数据可以获得超越模型本身DP保证的隐私放大效果，放大程度为 $O(1/d)$。

研究背景与动机¶

差分隐私（DP）是隐私保护的黄金标准。训练DP生成模型后，合成数据继承模型的DP保证（后处理定律）。但经验研究表明，合成数据实际上可能比模型本身提供更强的隐私保护。

核心问题：释放合成数据（而非模型本身）是否存在隐私放大效应？

后处理定律给出的是上界——是否过于保守？
直觉：当释放的合成数据点数远小于模型复杂度时，隐私泄露应该减少
但此前缺乏严格的理论分析

方法论选择：以线性回归为研究框架，因为： 1. 分析可解 2. 足够表达——能捕捉双重下降、模型坍塌等现象 3. 为更复杂模型的推广奠定基础

方法详解¶

整体框架¶

使用 f-DP 和 Rényi DP (RDP) 框架分析。设置： - 数据集 $\mathcal{D} = (X, Y)$，$X \in \mathbb{R}^{d \times m}$, $Y \in \mathbb{R}^{n \times m}$ - 线性模型 $\hat{Y} = wX$ - 输出扰动机制：$\mathcal{M}(\mathcal{D}) = \arg\min_w F_\lambda(w; \mathcal{D}) + \sigma_\theta N$

关键设计¶

第一部分：固定种子——负面结果（Section 3）¶

对抗者控制种子 $z$ 时：

Proposition 3.1（输出扰动）：对任意固定 $z \in \mathbb{R}^d$，存在邻近数据集 $\mathcal{D}, \mathcal{D}'$ 使得： $$T(Vz, Wz) = T(V, W)$$ 即单个合成数据点就能泄露与释放整个模型相同的隐私。

原因：对抗者可以选择 $z$ 为 $\mu = w^* - v^*$ 的最大奇异值对应的右奇异向量，最大化信号-噪声比。

Proposition 3.3（噪声梯度下降）：同样的负面结果适用于NGD训练的模型。

第二部分：随机种子——正面结果（Section 4）¶

Definition 4.1：种子 $Z \in \mathbb{R}^{d \times l}$，$Z_{ij} \sim \mathcal{N}(0, \sigma_z^2)$，释放 $\mathcal{M}_Z(v) = \mathcal{M}(v)Z$。

核心洞察：$VZ$ 可以分解为独立项之和 $VZ = \sum_{k=1}^d V_k Z_k$，应用CLT逼近。

Lemma 4.3（单点情况 $n=l=1$）： $$TV(\sqrt{d}(\sigma_\theta N + v)Z, \sigma_z\sqrt{d\sigma_\theta^2 + \|v\|^2} G) \leq \frac{A_{\|v\|}}{d}$$

即 $VZ$ 和 $WZ$ 趋近于方差不同（而非均值不同）的高斯分布，隐私问题从"均值漂移"变为"方差漂移"。

Theorem 4.3（单点隐私放大）：trade-off函数 $T(VZ, WZ)$ 以 $O(1/d)$ 速率收敛到方差不同高斯的trade-off函数。

Rényi散度的渐近结果： $$D_\alpha(\nu_{v_*}^d, \nu_{w_*}^d) = \frac{\alpha\Delta^2}{4d\sigma_\theta^2} + o(d^{-1}) \approx \frac{1}{2d} D_\alpha(V, W)$$ 暗示 $O(1/d)$ 级别的隐私放大。

第三部分：多点释放（Section 4.3）¶

利用Li & Woodruff (2021)的高斯矩阵乘积收敛结果：

Theorem 4.5（带漂移的高斯矩阵乘积收敛）： $$TV((\sigma_\theta N + v)Z, \sigma_\theta\sqrt{d-s}G + vZ') \leq C'\sqrt{\frac{nls}{d-s}}$$

其中 $s = \text{rank}(v)$。关键性质：界不依赖于漂移 $v$ 的范数。

Theorem 4.6：$l$ 个 $n$ 维合成点的Rényi散度： $$D_\alpha(G_v, G_w) \leq \frac{\alpha nl \Delta^2}{4(d-n)\sigma_\theta^2} + o(d^{-1})$$

损失函数 / 训练策略¶

本文为理论分析工作，不涉及训练。核心技术工具包括： - f-DP的trade-off函数框架 - 非渐近CLT（Bally & Caramellino, 2016） - 高斯矩阵乘积的TV收敛（Li & Woodruff, 2021） - Pinsker不等式 + KL散度链式法则

实验关键数据¶

主实验¶

数值验证（单点释放, Figure 2）： - 使用Monte Carlo估计Rényi散度 $D_\alpha(VZ, WZ)$（$L=10^6$ 样本，$M=50$ 次重复） - 在高隐私regime ($\Delta < 1$) 下，$l_\alpha(h) \approx O(1/d)$ 的衰减趋势得到验证

多点释放（Figure 3, $l=10, n=1$）： - Rényi散度随 $d$ 的增长呈 $O(d^{-1/2})$ 衰减（固定 $l, n$）

关键发现¶

场景	隐私放大？	放大程度
固定种子（对抗者控制）	❌ 无	$T(Vz,Wz) = T(V,W)$
随机种子，释放1点 ($l=1, n=1$)	✅ 有	$\approx \frac{1}{2d} D_\alpha(V,W)$
随机种子，释放 $l$ 点 ($n$ 维)	✅ 有	$\approx \frac{nl}{2(d-n)} D_\alpha(V,W)$

条件：$d \geq \max\{n, l\}$

亮点与洞察¶

正反两面的完整图景：既证明了固定种子下无法放大（负面），又证明了随机种子下的放大（正面），揭示了随机性隐藏是隐私放大的关键
"均值漂移→方差漂移"的优美转换：合成数据生成将两个分布之间的均值差异转化为方差差异，本质上"稀释"了隐私信号
不依赖漂移范数的界（Theorem 4.5）：带漂移版本的高斯矩阵乘积收敛结果是独立有趣的数学贡献
组合性质：多点释放的结果自然体现为单点机制的组合，$nl$ 因子线性增长
两全其美：DP生成模型同时享有后处理保证（大量释放时）和组合保证（少量释放时，更优）

局限与展望¶

仅限线性回归：结论对非线性生成模型的推广尚不清楚
CLT常数的保守性：非渐近CLT的常数可能导致小 $d$ 时界不紧（Figure 2中的初始平台）
$d \geq \max\{n, l\}$ 的限制：需要模型维度大于输出维度和释放数量，不适用于低维模型
Rényi散度界的间接性：trade-off函数的 $O(1/d)$ 收敛不直接蕴含Rényi散度的 $O(1/d)$ 收敛，需要数值验证
高斯种子假设：实际生成模型的输入分布可能不是高斯的
Li & Woodruff (2021) 的 Theorem 4.7：当 $d < \max\{n,l\}$ 时高斯乘积不收敛，说明放大效应有本质限制

评分¶

新颖性: ⭐⭐⭐⭐ — 首次严格分析合成数据的隐私放大，正反结果互补
实验充分度: ⭐⭐⭐ — 以理论为主，数值验证支撑理论预测
写作质量: ⭐⭐⭐⭐⭐ — 论文结构清晰，从简单到复杂层层递进
价值: ⭐⭐⭐⭐ — 为合成数据隐私提供了理论基础，尽管限于线性回归