Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning¶

会议: NeurIPS 2025
arXiv: 2402.06674
代码: 无
领域: AI安全
关键词: membership inference attack, privacy, transfer learning, power law, differential privacy

一句话总结¶

本文理论推导并实验验证了深度迁移学习中成员推理攻击（MIA）脆弱性与每类样本数之间的幂律关系 \(\log(\text{tpr}-\text{fpr}) = -\beta_S \log(S) - \beta_0\)，发现增加数据量可降低平均和最坏情况脆弱性，但保护最脆弱样本需要极大量数据。

背景与动机¶

MIA 作为隐私度量：成员推理攻击（MIA）通过判断样本是否在训练集中来评估模型的隐私泄露程度，与差分隐私（DP）提供的理论上界形成互补的隐私下界估计。
MIA 与 DP 的威胁模型差异：DP 隐含假设攻击者极其强大（可访问除目标点外的所有训练数据），提供最坏情况保证；MIA 假设更现实的攻击者（仅访问数据分布），但评估是统计性的，无法提供普适保证。
已知但未量化的现象：先前工作已观察到类别数多的模型更脆弱、训练样本少的模型更脆弱、少数类更脆弱，但均未给出这些因素与脆弱性之间的定量关系。
迁移学习的隐私重要性：微调预训练模型在数据有限的隐私敏感场景（如医疗影像）中越来越普遍，理解其 MIA 脆弱性的影响因素至关重要。
最坏情况分析缺失：已有工作关注平均脆弱性，但对个体样本最坏情况脆弱性的系统研究不足，而即使少量样本被高置信度推理也构成严重隐私风险。
需要可预测的脆弱性模型：实践者需要在训练前评估隐私风险的工具，而定量的幂律关系可以直接用于风险预测和数据需求估计。

方法详解¶

理论分析框架¶

简化模型构建¶

论文构建了成员推理的简化模型来进行理论推导：

数据生成：对每个类别采样真实类均值 \(\bm{m}_c\)（高维单位球上正交向量），为每类生成 \(2S\) 个样本 \(\bm{x}_c \sim \mathcal{N}(\bm{m}_c, \Sigma)\)
目标模型：从所有样本中随机选 \(CS\) 个计算各类均值 \(\hat{\bm{m}}_c\)，通过内积 \(\langle \bm{x}, \hat{\bm{m}}_c \rangle\) 进行分类
攻击者：利用 LiRA 的似然比检验判断目标点是否在训练集中

该模型对应迁移学习中常用的线性分类器（Head），其中内积分数服从正态分布，因此 LiRA 在该模型下是 Neyman-Pearson 引理意义下的最优攻击。

核心理论结果¶

Lemma 1（单样本 LiRA 脆弱性）：将 LiRA 脆弱性归结为位置-尺度族分布的参数：

\[\text{tpr}_{\text{LiRA}}(\bm{x}) = 1 - F_Z\left(F_Z^{-1}(1-\text{fpr}) - \frac{\mu_{\text{in}}(\bm{x}) - \mu_{\text{out}}(\bm{x})}{\sigma(\bm{x})}\right)\]

Theorem 2（单样本幂律）：在简化模型下推导得到：

\[\log(\text{tpr} - \text{fpr}) = -\frac{1}{2}\log S - \frac{1}{2}\Phi^{-1}(\text{fpr})^2 + \log\frac{|\langle \bm{x}, \bm{x} - \bm{m}_{\bm{x}} \rangle|}{\sqrt{\bm{x}^T \Sigma \bm{x}} \sqrt{2\pi}} + \log(1+\xi(S))\]

其中 \(\xi(S) = O(1/\sqrt{S})\)。关键洞见：斜率 \(\beta_S = 1/2\)（对数坐标下），脆弱性随 \(S\) 的增加以幂律衰减。

Corollary 4（平均情况幂律）：对数据分布取期望后，平均脆弱性也服从同样的幂律，且 Cauchy-Schwarz 不等式给出最坏情况的上界，说明只要 \(\|\bm{x} - \bm{m}_{\bm{x}}\|\) 有界，所有样本的脆弱性都可通过增加 \(S\) 来降低。

计量回归模型¶

基于理论启发，构建线性回归预测模型：

\[\log_{10}(\text{tpr} - \text{fpr}) = \beta_S \log_{10}(S) + \beta_C \log_{10}(C) + \beta_0\]

在 ViT-B (Head) 数据上训练，\(R^2 = 0.930\)（fpr=0.001），且能泛化到 ResNet-50 和 FiLM 微调方法。

RMIA 扩展¶

理论同样适用于 RMIA 攻击，附录中给出了类似的幂律证明。

实验结果¶

实验设置¶

特征提取器：ViT-Base-16（ImageNet-21k 预训练）、ResNet-50
微调方式：Head（线性层）、FiLM（参数高效）
攻击方法：LiRA（256 shadow models）、RMIA
数据集：VTAB 基准子集（测试准确率 >80% 的数据集），包括 Patch Camelyon、EuroSAT、CIFAR-100 等
评估指标：固定 fpr 下的 tpr（fpr = \(10^{-1}\) 到 \(10^{-5}\)）

主要实验结果¶

幂律关系验证（Figure 1）：对所有测试数据集，\(\log(\text{tpr}-\text{fpr})\) 与 \(\log(S)\) 呈清晰线性关系，对不同 fpr 水平均成立。

fpr 水平	回归斜率 \(\beta_S\)	理论值	\(R^2\)
0.1	≈ -0.5	-0.5	0.930
0.01	≈ -0.5	-0.5	高
0.001	≈ -0.5	-0.5	0.930

保护最脆弱样本所需数据量（Table 1 — 预测最小 \(S\)，\(C=2\)）¶

DP 参数 \(\epsilon\)	平均情况 (fpr=0.001)	最坏情况 (fpr=0.1)
0.25	320,000	\(5.5 \times 10^9\)
0.50	88,000	\(2.6 \times 10^8\)
0.75	38,000	\(3.5 \times 10^7\)
1.00	19,000	\(7.0 \times 10^6\)

关键发现： - 幂律成立：\(\beta_S \approx -0.5\) 与理论预测高度一致 - 类别数影响较弱：\(C\) 增大略微增加脆弱性，但趋势不如 \(S\) 清晰 - 个体样本分析（Figure 6）：分位数处脆弱性的斜率约 -0.48 到 -0.57，接近理论值；但最脆弱样本（max）的斜率仅 -0.27，下降显著更慢 - 泛化能力：在 ViT-B（Head）上训练的回归模型可良好预测 R-50（Head）（\(R^2=0.790\)）和 R-50（FiLM）的脆弱性 - 从头训练更脆弱：模型低估了从头训练（非迁移学习）的脆弱性

亮点¶

理论与实验高度吻合：简化模型推导的 \(\beta_S = -0.5\) 幂律在真实深度迁移学习实验中得到精确验证，理论预测能力强
实用的脆弱性预测工具：回归模型仅需数据集属性（\(S\), \(C\)）即可预测 MIA 脆弱性，可在训练前评估隐私风险
最坏情况分析深入：揭示了最脆弱样本的保护难度远超平均情况（需数据量高出 2-4 个数量级），对实践有重要警示
与 DP 保证的桥接：通过 Kairouz 等人的转换定理，将经验 MIA 结果与正式 DP 保证进行了有意义的对比

局限性¶

简化模型假设：理论基于高斯分布和正交类均值假设，对重尾分布或复杂流形结构的数据可能不适用
仅限迁移学习：幂律关系在从头训练场景下未必成立（Remark 3 明确指出），且实验也证实从头训练更脆弱
统计性而非保证性：MIA 评估本质上是统计的，无法提供 DP 那样的普适隐私保证
攻击者假设有限：假设攻击者仅知道目标点且其余数据集随机，更强的攻击者（知道部分训练数据）可能使幂律失效

评分¶

⭐⭐⭐⭐ 新颖性：首次建立 MIA 脆弱性与数据集属性之间的精确定量关系（幂律）
⭐⭐⭐⭐⭐ 技术深度：理论推导严谨（从简化模型到回归预测），且理论与实验高度一致
⭐⭐⭐⭐ 实验充分度：覆盖多种特征提取器、微调方式、数据集和攻击方法，个体脆弱性分析细致
⭐⭐⭐⭐ 实用性：提供可直接使用的脆弱性预测模型和数据需求估计，对隐私保护实践有直接指导价值

维度	本文	Carlini et al. (2022) LiRA
关注点	数据集属性（\(S\), \(C\)）如何定量影响 MIA 脆弱性	提出 LiRA 攻击方法本身
理论贡献	推导幂律关系、提供可预测模型	无脆弱性与数据量的定量理论
实验范围	系统性地变化 \(S\) 和 \(C\)，覆盖多数据集和多微调方式	有限的从头训练结果
实际指导	给出保护所需的最小 \(S\) 估计	未提供数据需求估计

维度	本文	Feldman & Zhang (2020)
研究焦点	MIA 脆弱性与数据集大小的定量关系	记忆化（memorization）是否为高效用所必需
核心发现	幂律衰减：\(\text{tpr} - \text{fpr} \propto S^{-1/2}\)	从头训练需大量记忆化，微调显著减少
分析粒度	平均 + 最坏情况 + 个体分位数	整体记忆化程度
理论框架	简化高斯模型 + Neyman-Pearson 最优性	基于长尾分布的记忆化论证