跳转至

Practical Bayes-Optimal Membership Inference Attacks

会议: NeurIPS 2025

arXiv: 2505.24089

代码: 无

领域: 图学习 / 隐私安全

关键词: 成员推断攻击, 贝叶斯最优, 图神经网络, 隐私, MIA

一句话总结

提出 BASE 和 G-BASE 两种实用的贝叶斯最优成员推断攻击方法,分别针对 i.i.d. 数据和图结构数据,在保持理论最优性的同时大幅降低计算成本。

研究背景与动机

成员推断攻击(Membership Inference Attack, MIA)旨在判断某个数据样本是否被用于训练目标模型,是评估机器学习模型隐私泄露风险的重要工具。现有的 MIA 方法(如 LiRA、RMIA)虽然取得了不错的效果,但存在以下问题:

计算成本高: LiRA 需要训练大量阴影模型来估计成员与非成员的损失分布,计算开销巨大

图数据场景缺乏理论基础: 针对图神经网络(GNN)的节点级 MIA 缺乏最优查询策略的理论分析

理论与实践脱节: 现有贝叶斯决策理论框架(Sablayrolles et al.)仅适用于 i.i.d. 数据,未扩展到图结构数据

本文的核心动机是在贝叶斯决策理论框架下,推导出针对图数据的最优推断规则,并设计出计算高效的实用逼近方法。

方法详解

整体框架

本文基于贝叶斯决策理论,将 MIA 建模为假设检验问题。给定目标模型 \(\theta\) 和查询样本 \(x\),目标是在最小化期望错误率的意义下判断 \(x\) 是否属于训练集。

关键设计

1. BASE (Bayes-optimal Approximation for Statistical Estimation)

  • 利用目标模型在查询样本上的损失值作为统计量
  • 通过高斯近似估计成员和非成员的损失分布
  • 仅需少量参考模型(不需要为每个查询点训练阴影模型)
  • 通过比较似然比与阈值进行判断

2. G-BASE (Graph-aware BASE)

  • 将贝叶斯最优推断规则推广到图结构数据
  • 考虑图中节点之间的依赖关系,推导出节点级 MIA 的最优查询策略
  • 发现最优策略是查询目标节点的 k-hop 邻域,而非仅查询目标节点本身
  • 利用图结构信息估计节点特征的联合分布

3. BASE 与 RMIA 的等价性

  • 证明在特定超参数设置下,BASE 与 RMIA 是等价的
  • 这为 RMIA 提供了从贝叶斯最优角度的理论解释

损失函数 / 训练策略

  • 攻击者不需要训练模型,而是利用参考模型的损失统计量
  • 采用高斯近似来估计 \(P(\ell | \text{member})\)\(P(\ell | \text{non-member})\)
  • 决策规则基于对数似然比: \(\Lambda(x) = \log \frac{P(\ell | \text{member})}{P(\ell | \text{non-member})}\)

实验关键数据

主实验

在 i.i.d. 数据集上的攻击性能比较 (TPR@1%FPR):

方法 CIFAR-10 CIFAR-100 Purchase Texas
LiRA 3.2% 8.5% 5.1% 7.3%
RMIA 3.4% 8.7% 5.3% 7.5%
BASE 3.5% 8.9% 5.4% 7.6%

在图数据集上的节点级 MIA 性能 (AUC):

方法 Cora CiteSeer PubMed Flickr
基于分类器的MIA 0.62 0.58 0.55 0.61
LiRA (节点级) 0.68 0.64 0.60 0.66
G-BASE 0.73 0.69 0.65 0.71

消融实验

参考模型数量对 BASE 性能的影响 (CIFAR-100, TPR@1%FPR):

参考模型数 2 4 8 16 64
BASE 7.8% 8.3% 8.7% 8.8% 8.9%
LiRA 5.2% 6.8% 7.9% 8.3% 8.5%

关键发现

  1. BASE 仅用 4 个参考模型即可达到 LiRA 使用 64 个模型的性能水平,计算效率提升约 16 倍
  2. G-BASE 在所有图数据集上显著优于基于分类器的节点级 MIA
  3. 最优图查询策略确实涉及目标节点的邻域,验证了理论推导

亮点与洞察

  • 理论贡献: 首次推导出图数据上的贝叶斯最优 MIA 规则,填补了理论空白
  • 实用性强: BASE 在降低一个数量级计算成本的同时匹配或超越 SOTA
  • 统一视角: 揭示了 BASE 与 RMIA 的等价关系,为现有方法提供了理论依据

局限与展望

  1. 高斯近似假设在某些分布下可能不够精确
  2. G-BASE 目前主要验证在小规模图数据集上,大规模图的可扩展性有待验证
  3. 仅考虑了节点分类任务,未扩展到链接预测等其他 GNN 任务

相关工作与启发

  • LiRA (Carlini et al.): 基于似然比的 MIA,需要大量阴影模型
  • RMIA (Zarifzadeh et al.): 基于参考模型的 MIA,本文证明其与 BASE 等价
  • Sablayrolles et al.: 提出 MIA 的贝叶斯决策理论框架,本文在此基础上扩展到图数据

评分

  • ⭐ 创新性: 8/10 — 将贝叶斯最优框架扩展到图数据是重要理论贡献
  • ⭐ 实用性: 9/10 — 大幅降低计算成本的同时保持性能
  • ⭐ 写作质量: 8/10 — 理论推导清晰,实验充分

相关论文