Practical Bayes-Optimal Membership Inference Attacks¶

会议: NeurIPS 2025

代码: 无

领域: 图学习 / 隐私安全

关键词: 成员推断攻击, 贝叶斯最优, 图神经网络, 隐私, MIA

一句话总结¶

提出 BASE 和 G-BASE 两种实用的贝叶斯最优成员推断攻击方法，分别针对 i.i.d. 数据和图结构数据,在保持理论最优性的同时大幅降低计算成本。

研究背景与动机¶

成员推断攻击（Membership Inference Attack, MIA）旨在判断某个数据样本是否被用于训练目标模型，是评估机器学习模型隐私泄露风险的重要工具。现有的 MIA 方法（如 LiRA、RMIA）虽然取得了不错的效果，但存在以下问题：

计算成本高: LiRA 需要训练大量阴影模型来估计成员与非成员的损失分布，计算开销巨大

图数据场景缺乏理论基础: 针对图神经网络（GNN）的节点级 MIA 缺乏最优查询策略的理论分析

理论与实践脱节: 现有贝叶斯决策理论框架（Sablayrolles et al.）仅适用于 i.i.d. 数据，未扩展到图结构数据

本文的核心动机是在贝叶斯决策理论框架下，推导出针对图数据的最优推断规则，并设计出计算高效的实用逼近方法。

方法详解¶

整体框架¶

本文基于贝叶斯决策理论，将 MIA 建模为假设检验问题。给定目标模型 \(\theta\) 和查询样本 \(x\)，目标是在最小化期望错误率的意义下判断 \(x\) 是否属于训练集。

关键设计¶

1. BASE (Bayes-optimal Approximation for Statistical Estimation)

利用目标模型在查询样本上的损失值作为统计量
通过高斯近似估计成员和非成员的损失分布
仅需少量参考模型（不需要为每个查询点训练阴影模型）
通过比较似然比与阈值进行判断

2. G-BASE (Graph-aware BASE)

将贝叶斯最优推断规则推广到图结构数据
考虑图中节点之间的依赖关系,推导出节点级 MIA 的最优查询策略
发现最优策略是查询目标节点的 k-hop 邻域,而非仅查询目标节点本身
利用图结构信息估计节点特征的联合分布

3. BASE 与 RMIA 的等价性

证明在特定超参数设置下,BASE 与 RMIA 是等价的
这为 RMIA 提供了从贝叶斯最优角度的理论解释

损失函数 / 训练策略¶

攻击者不需要训练模型,而是利用参考模型的损失统计量
采用高斯近似来估计 \(P(\ell | \text{member})\) 和 \(P(\ell | \text{non-member})\)
决策规则基于对数似然比: \(\Lambda(x) = \log \frac{P(\ell | \text{member})}{P(\ell | \text{non-member})}\)

实验关键数据¶

主实验¶

在 i.i.d. 数据集上的攻击性能比较 (TPR@1%FPR):

方法	CIFAR-10	CIFAR-100	Purchase	Texas
LiRA	3.2%	8.5%	5.1%	7.3%
RMIA	3.4%	8.7%	5.3%	7.5%
BASE	3.5%	8.9%	5.4%	7.6%

在图数据集上的节点级 MIA 性能 (AUC):

方法	Cora	CiteSeer	PubMed	Flickr
基于分类器的MIA	0.62	0.58	0.55	0.61
LiRA (节点级)	0.68	0.64	0.60	0.66
G-BASE	0.73	0.69	0.65	0.71

消融实验¶

参考模型数量对 BASE 性能的影响 (CIFAR-100, TPR@1%FPR):

参考模型数	2	4	8	16	64
BASE	7.8%	8.3%	8.7%	8.8%	8.9%
LiRA	5.2%	6.8%	7.9%	8.3%	8.5%

关键发现¶

BASE 仅用 4 个参考模型即可达到 LiRA 使用 64 个模型的性能水平，计算效率提升约 16 倍
G-BASE 在所有图数据集上显著优于基于分类器的节点级 MIA
最优图查询策略确实涉及目标节点的邻域，验证了理论推导

亮点与洞察¶

理论贡献: 首次推导出图数据上的贝叶斯最优 MIA 规则，填补了理论空白
实用性强: BASE 在降低一个数量级计算成本的同时匹配或超越 SOTA
统一视角: 揭示了 BASE 与 RMIA 的等价关系，为现有方法提供了理论依据

局限与展望¶

高斯近似假设在某些分布下可能不够精确
G-BASE 目前主要验证在小规模图数据集上，大规模图的可扩展性有待验证
仅考虑了节点分类任务，未扩展到链接预测等其他 GNN 任务

评分¶

⭐ 创新性: 8/10 — 将贝叶斯最优框架扩展到图数据是重要理论贡献
⭐ 实用性: 9/10 — 大幅降低计算成本的同时保持性能
⭐ 写作质量: 8/10 — 理论推导清晰，实验充分