AAAI2026 图学习图神经网络模型安全自监督学习查询选择黑盒攻击 Inductive/Transductive

On Stealing Graph Neural Network Models¶

会议: AAAI2026
arXiv: 2511.07170
作者: Marcin Podhajski, Jan Dubiński, Franziska Boenisch, Adam Dziedzic, Agnieszka Pręgowska, Tomasz P. Michalak
代码: m-podhajski/OnStealingGNNs
领域: graph_learning
关键词: GNN模型窃取, 模型安全, 自监督学习, 查询选择, 黑盒攻击, Inductive/Transductive

一句话总结¶

证明了在严格查询限制下（如仅100次查询），攻击者可通过"本地获取encoder（随机初始化/SSL训练）+ K-means策略性查询选择"两阶段方法高效窃取GNN模型，在Physics数据集上仅用100次查询即达91%准确率，而现有SOTA需约5000次查询加额外embedding访问才能达到类似水平。

背景与动机¶

GNN模型面临的安全威胁¶

图神经网络在节点分类、链接预测、图分类和推荐系统中广泛应用，但与所有神经网络一样面临安全威胁。模型窃取（Model Stealing）攻击中，攻击者通过查询victim模型的API获取输入-输出对，训练一个功能相近的surrogate模型。典型防御手段是限制查询次数，但现有GNN窃取研究普遍假设无限查询访问，忽略了实际部署中严格的查询限制。

现有方法的假设过于宽松¶

已有GNN窃取方法（Shen et al., Podhajski et al.）依赖victim模型返回embedding等中间表示来窃取encoder，并假设无限查询次数。Data-free方法虽不需要数据但仍需大量查询（如100次查询×250节点=25000个查询节点）。这些假设在实际场景中不成立——真实API通常只返回类别标签且有严格的查询配额。

自监督学习的关键观察¶

来自SSL研究的重要发现：在inductive设定下，随机初始化的GCN encoder配合训练好的MLP head即可取得接近完全训练模型的性能。例如DGI报告Reddit上随机encoder达93.3%而SSL训练仅94.0%，BGRL在Physics上差距仅2个百分点。这意味着攻击者可能根本不需要查询victim来获取encoder——在inductive设定下用随机初始化，在transductive设定下用SSL本地训练即可。

核心问题¶

在攻击者只能获得类别标签（非embedding）且查询次数严格受限的hardest黑盒场景下，如何高效窃取GNN模型？

方法详解¶

整体框架（三阶段）¶

本地获取Encoder：不与victim交互，在本地获取feature extractor
策略性查询选择：利用encoder生成的嵌入空间选择最有信息量的查询节点
训练MLP Head：用查询得到的类别标签训练MLP，与encoder组合得到surrogate模型

威胁模型¶

黑盒设定：不知道victim的参数、架构和训练数据 $\mathbf{G}_V$
查询限制：最多 $q_n$ 次查询，每次仅返回类别标签
数据假设：攻击者拥有与victim训练数据同分布的无标签图 $\mathbf{G}_D$

阶段1: Encoder获取¶

Inductive设定：直接使用随机初始化的GCN作为encoder，完全不与victim交互。T-SNE可视化表明随机encoder在inductive设定下已能产生结构化的embedding，各类节点呈明显分簇。

Transductive设定：使用自监督学习（LaGraph）在攻击者的全部数据 $\mathbf{G}_D$ 上本地训练encoder。Transductive图通常较小（如Cora 2708节点），SSL训练成本低。SSL在该设定下提升显著：Cora上从69.3%提升至82.3%（+13.0%）。

阶段2: 查询选择¶

利用encoder生成的嵌入 $\mathbf{H} = f(\mathbf{X}_D, \mathbf{A}_D) \in \mathbb{R}^{n \times b}$，使用K-means将节点划分为 $q_n$ 个聚类，从每个聚类中选择最接近质心的节点作为查询节点 $\{v_1', \ldots, v_{q_n}'\}$。这确保查询覆盖整个输入空间，最大化每次查询的信息增益，类似主动学习中的diversity sampling。

阶段3: MLP训练¶

对选定节点查询victim获取标签 $\{y_1, \ldots, y_{q_n}\}$，用Cross Entropy损失训练MLP组件 $g$： $$\hat{y} = f_s(\mathbf{X}, \mathbf{A}) = g(f(\mathbf{X}, \mathbf{A}))$$ 其中 $f$ 为encoder，$g$ 为MLP head，$f_s$ 为最终的surrogate模型。

实验关键数据¶

Inductive设定 (Target: SAGE, Surrogate: GCN, $q_n=100$)¶

方法	Reddit Acc	CS Acc	Physics Acc	Photo Acc	WikiCS Acc
Target（victim）	94.8	93.9	96.0	93.0	72.5
E2E	47.0±4.5	73.6±3.9	89.9±1.1	81.2±0.8	61.6±1.3
Shen et al.*	77.2±5.1	77.7±0.8	90.6±0.5	84.4±0.8	64.9±1.0
Podhajski et al.*	79.9±4.1	78.0±0.5	89.9±0.2	84.0±1.0	64.0±1.1
datafree	13.6±4.1	24.8±2.8	55.5±5.0	24.9±2.8	38.6±2.1
R-init+Select (Ours)	82.5±1.2	78.4±2.1	91.2±0.4	86.8±1.0	65.5±1.8

*标记方法需要额外访问victim embedding（更弱的威胁模型）

Transductive设定 (Target: GCN, Surrogate: GCN, $q_n=10$)¶

方法	Cora Acc	Cora Fid	Citeseer Acc	Citeseer Fid	Pubmed Acc	Pubmed Fid
Target	83.3	—	72.1	—	80.0	—
E2E	47.5±3.7	45.7±1.0	37.2±6.1	41.1±7.5	61.0±4.9	67.5±5.0
datafree	18.1±2.7	21.1±3.9	22.1±3.3	23.1±3.8	33.2±2.9	33.4±3.0
SSL+Random	56.1±2.7	56.8±3.0	51.3±5.1	57.6±5.5	66.1±7.3	72.7±9.0
SSL+Select (Ours)	69.9±1.2	72.5±1.3	66.3±1.9	72.4±2.3	67.0±6.0	80.1±4.7

随机初始化 vs SSL训练 Encoder对比¶

设定	数据集	Random Acc	SSL-Trained Acc	增益
Inductive	Reddit	93.3	94.0	+0.7
Inductive	Physics	93.7	95.7	+2.0
Transductive	Cora	69.3	82.3	+13.0
Transductive	Citeseer	61.9	71.8	+9.9

防御下的鲁棒性¶

在10%预测翻转防御下，本方法仍在所有设定中保持最高性能，说明防御效果有限。

亮点¶

首次研究严格查询限制下的GNN窃取：将问题分解为"encoder获取"和"head窃取"两个独立阶段，揭示了此前被忽视的严重安全威胁
随机初始化encoder的有效性：在inductive设定下，随机GCN encoder已能产生高质量特征表示，完全无需与victim交互即可获取模型主体部分
资源效率极高：仅需100次查询和单个商用CPU（AMD EPYC 7742）即可完成攻击，对比Shen et al.需约5000次查询+GPU+victim embedding，查询效率提升约15倍
K-means查询选择的有效性：对比随机选择和其他主动学习策略（farthest-first、coreset herding等），K-means在所有数据集上一致最优
同时覆盖inductive和transductive两种设定，是首个在两种范式下都有效的GNN窃取方法

局限与展望¶

数据分布假设：要求攻击者拥有与victim训练数据同分布的无标签图数据 $\mathbf{G}_D$，在实践中这一假设可能不完全成立
仅限节点级任务：当前仅针对节点分类，未涉及图分类或链接预测等其他GNN任务
Surrogate架构选择：虽然方法不依赖架构匹配，但实验中使用GCN作为surrogate对所有victim架构可能非最优
防御讨论有限：仅评估了预测翻转防御，未考虑更复杂的防御机制如水印嵌入或差分隐私

与相关工作的对比¶

vs Shen et al. / Podhajski et al.: 这两个方法需要victim返回embedding（更弱的威胁模型），且假设无限查询，本方法仅需类别标签和100次查询即超越它们
vs datafree: 虽不需要数据但需大量查询（25000节点），在100次查询下性能极差（Physics仅55.5%），本方法达91.2%
vs wu2021model: 限于transductive设定且假设无限查询，本方法在更强约束下取得更好结果

启发与关联¶

随机初始化GNN encoder的有效性与Weisfeiler-Lehman图同构测试理论相关——GNN的结构感知能力部分来自架构本身而非学习到的权重
K-means查询选择与主动学习中的diversity sampling在理念上一致，可借鉴更多主动学习策略
本文揭示的安全威胁对GNN as a Service (GNNaaS) 的部署有直接实际影响

评分¶

新颖性: ⭐⭐⭐⭐ — 首次在严格查询限制下研究GNN窃取，将encoder获取与head窃取解耦的洞察有价值
实验充分度: ⭐⭐⭐⭐⭐ — 8个数据集、两种设定、多种victim/surrogate架构、防御评估、McNemar检验
写作质量: ⭐⭐⭐⭐ — 动机清晰，方法逐步展开，Table 1的方法对比一目了然
价值: ⭐⭐⭐⭐ — 切实揭示了GNN的安全漏洞，对模型部署的安全防护有警示意义