跳转至

Impact of Dataset Properties on Membership Inference Vulnerability of Deep Transfer Learning

会议: NeurIPS 2025
arXiv: 2402.06674
代码: 无
领域: AI安全
关键词: membership inference attack, privacy, transfer learning, power law, differential privacy

一句话总结

本文理论推导并实验验证了深度迁移学习中成员推理攻击(MIA)脆弱性与每类样本数之间的幂律关系 \(\log(\text{tpr}-\text{fpr}) = -\beta_S \log(S) - \beta_0\),发现增加数据量可降低平均和最坏情况脆弱性,但保护最脆弱样本需要极大量数据。

背景与动机

  1. MIA 作为隐私度量:成员推理攻击(MIA)通过判断样本是否在训练集中来评估模型的隐私泄露程度,与差分隐私(DP)提供的理论上界形成互补的隐私下界估计。

  2. MIA 与 DP 的威胁模型差异:DP 隐含假设攻击者极其强大(可访问除目标点外的所有训练数据),提供最坏情况保证;MIA 假设更现实的攻击者(仅访问数据分布),但评估是统计性的,无法提供普适保证。

  3. 已知但未量化的现象:先前工作已观察到类别数多的模型更脆弱、训练样本少的模型更脆弱、少数类更脆弱,但均未给出这些因素与脆弱性之间的定量关系

  4. 迁移学习的隐私重要性:微调预训练模型在数据有限的隐私敏感场景(如医疗影像)中越来越普遍,理解其 MIA 脆弱性的影响因素至关重要。

  5. 最坏情况分析缺失:已有工作关注平均脆弱性,但对个体样本最坏情况脆弱性的系统研究不足,而即使少量样本被高置信度推理也构成严重隐私风险。

  6. 需要可预测的脆弱性模型:实践者需要在训练前评估隐私风险的工具,而定量的幂律关系可以直接用于风险预测和数据需求估计。

方法详解

理论分析框架

简化模型构建

论文构建了成员推理的简化模型来进行理论推导:

  1. 数据生成:对每个类别采样真实类均值 \(\bm{m}_c\)(高维单位球上正交向量),为每类生成 \(2S\) 个样本 \(\bm{x}_c \sim \mathcal{N}(\bm{m}_c, \Sigma)\)
  2. 目标模型:从所有样本中随机选 \(CS\) 个计算各类均值 \(\hat{\bm{m}}_c\),通过内积 \(\langle \bm{x}, \hat{\bm{m}}_c \rangle\) 进行分类
  3. 攻击者:利用 LiRA 的似然比检验判断目标点是否在训练集中

该模型对应迁移学习中常用的线性分类器(Head),其中内积分数服从正态分布,因此 LiRA 在该模型下是 Neyman-Pearson 引理意义下的最优攻击。

核心理论结果

Lemma 1(单样本 LiRA 脆弱性):将 LiRA 脆弱性归结为位置-尺度族分布的参数:

\[\text{tpr}_{\text{LiRA}}(\bm{x}) = 1 - F_Z\left(F_Z^{-1}(1-\text{fpr}) - \frac{\mu_{\text{in}}(\bm{x}) - \mu_{\text{out}}(\bm{x})}{\sigma(\bm{x})}\right)\]

Theorem 2(单样本幂律):在简化模型下推导得到:

\[\log(\text{tpr} - \text{fpr}) = -\frac{1}{2}\log S - \frac{1}{2}\Phi^{-1}(\text{fpr})^2 + \log\frac{|\langle \bm{x}, \bm{x} - \bm{m}_{\bm{x}} \rangle|}{\sqrt{\bm{x}^T \Sigma \bm{x}} \sqrt{2\pi}} + \log(1+\xi(S))\]

其中 \(\xi(S) = O(1/\sqrt{S})\)。关键洞见:斜率 \(\beta_S = 1/2\)(对数坐标下),脆弱性随 \(S\) 的增加以幂律衰减。

Corollary 4(平均情况幂律):对数据分布取期望后,平均脆弱性也服从同样的幂律,且 Cauchy-Schwarz 不等式给出最坏情况的上界,说明只要 \(\|\bm{x} - \bm{m}_{\bm{x}}\|\) 有界,所有样本的脆弱性都可通过增加 \(S\) 来降低。

计量回归模型

基于理论启发,构建线性回归预测模型:

\[\log_{10}(\text{tpr} - \text{fpr}) = \beta_S \log_{10}(S) + \beta_C \log_{10}(C) + \beta_0\]

在 ViT-B (Head) 数据上训练,\(R^2 = 0.930\)(fpr=0.001),且能泛化到 ResNet-50 和 FiLM 微调方法。

RMIA 扩展

理论同样适用于 RMIA 攻击,附录中给出了类似的幂律证明。

实验结果

实验设置

  • 特征提取器:ViT-Base-16(ImageNet-21k 预训练)、ResNet-50
  • 微调方式:Head(线性层)、FiLM(参数高效)
  • 攻击方法:LiRA(256 shadow models)、RMIA
  • 数据集:VTAB 基准子集(测试准确率 >80% 的数据集),包括 Patch Camelyon、EuroSAT、CIFAR-100 等
  • 评估指标:固定 fpr 下的 tpr(fpr = \(10^{-1}\)\(10^{-5}\)

主要实验结果

幂律关系验证(Figure 1):对所有测试数据集,\(\log(\text{tpr}-\text{fpr})\)\(\log(S)\) 呈清晰线性关系,对不同 fpr 水平均成立。

fpr 水平 回归斜率 \(\beta_S\) 理论值 \(R^2\)
0.1 ≈ -0.5 -0.5 0.930
0.01 ≈ -0.5 -0.5
0.001 ≈ -0.5 -0.5 0.930

保护最脆弱样本所需数据量(Table 1 — 预测最小 \(S\)\(C=2\)

DP 参数 \(\epsilon\) 平均情况 (fpr=0.001) 最坏情况 (fpr=0.1)
0.25 320,000 \(5.5 \times 10^9\)
0.50 88,000 \(2.6 \times 10^8\)
0.75 38,000 \(3.5 \times 10^7\)
1.00 19,000 \(7.0 \times 10^6\)

关键发现: - 幂律成立\(\beta_S \approx -0.5\) 与理论预测高度一致 - 类别数影响较弱\(C\) 增大略微增加脆弱性,但趋势不如 \(S\) 清晰 - 个体样本分析(Figure 6):分位数处脆弱性的斜率约 -0.48 到 -0.57,接近理论值;但最脆弱样本(max)的斜率仅 -0.27,下降显著更慢 - 泛化能力:在 ViT-B(Head)上训练的回归模型可良好预测 R-50(Head)(\(R^2=0.790\))和 R-50(FiLM)的脆弱性 - 从头训练更脆弱:模型低估了从头训练(非迁移学习)的脆弱性

亮点

  • 理论与实验高度吻合:简化模型推导的 \(\beta_S = -0.5\) 幂律在真实深度迁移学习实验中得到精确验证,理论预测能力强
  • 实用的脆弱性预测工具:回归模型仅需数据集属性(\(S\), \(C\))即可预测 MIA 脆弱性,可在训练前评估隐私风险
  • 最坏情况分析深入:揭示了最脆弱样本的保护难度远超平均情况(需数据量高出 2-4 个数量级),对实践有重要警示
  • 与 DP 保证的桥接:通过 Kairouz 等人的转换定理,将经验 MIA 结果与正式 DP 保证进行了有意义的对比

局限性

  • 简化模型假设:理论基于高斯分布和正交类均值假设,对重尾分布或复杂流形结构的数据可能不适用
  • 仅限迁移学习:幂律关系在从头训练场景下未必成立(Remark 3 明确指出),且实验也证实从头训练更脆弱
  • 统计性而非保证性:MIA 评估本质上是统计的,无法提供 DP 那样的普适隐私保证
  • 攻击者假设有限:假设攻击者仅知道目标点且其余数据集随机,更强的攻击者(知道部分训练数据)可能使幂律失效

相关工作对比

维度 本文 Carlini et al. (2022) LiRA
关注点 数据集属性(\(S\), \(C\))如何定量影响 MIA 脆弱性 提出 LiRA 攻击方法本身
理论贡献 推导幂律关系、提供可预测模型 无脆弱性与数据量的定量理论
实验范围 系统性地变化 \(S\)\(C\),覆盖多数据集和多微调方式 有限的从头训练结果
实际指导 给出保护所需的最小 \(S\) 估计 未提供数据需求估计
维度 本文 Feldman & Zhang (2020)
研究焦点 MIA 脆弱性与数据集大小的定量关系 记忆化(memorization)是否为高效用所必需
核心发现 幂律衰减:\(\text{tpr} - \text{fpr} \propto S^{-1/2}\) 从头训练需大量记忆化,微调显著减少
分析粒度 平均 + 最坏情况 + 个体分位数 整体记忆化程度
理论框架 简化高斯模型 + Neyman-Pearson 最优性 基于长尾分布的记忆化论证

评分

  • ⭐⭐⭐⭐ 新颖性:首次建立 MIA 脆弱性与数据集属性之间的精确定量关系(幂律)
  • ⭐⭐⭐⭐⭐ 技术深度:理论推导严谨(从简化模型到回归预测),且理论与实验高度一致
  • ⭐⭐⭐⭐ 实验充分度:覆盖多种特征提取器、微调方式、数据集和攻击方法,个体脆弱性分析细致
  • ⭐⭐⭐⭐ 实用性:提供可直接使用的脆弱性预测模型和数据需求估计,对隐私保护实践有直接指导价值

相关论文