PPO-MI: Efficient Black-Box Model Inversion via Proximal Policy Optimization¶

会议: ICML 2025
arXiv: 2502.14370
代码: 无
领域: AI安全
关键词: 模型反转攻击, 黑盒攻击, 强化学习, PPO, 隐私安全

一句话总结¶

将黑盒模型反转攻击形式化为 MDP，用 PPO 强化学习在生成模型的隐空间中导航搜索，仅依赖目标模型的预测概率即可高效重建训练样本，以更少查询和更少类别数据实现了 SOTA 攻击成功率。

领域现状：模型反转攻击旨在从已训练模型的预测中重建私有训练数据。白盒方法（GMI、KED-MI）性能好但需模型梯度，黑盒方法（VMI、MIRROR）需估计梯度或大量查询。

现有痛点：(a) 白盒方法不适用于部署场景；(b) 现有黑盒方法查询效率低（100K+），需要大量目标类别数据；(c) 基于梯度估计的方法在高维空间不稳定。

核心矛盾：无梯度信息时如何高效搜索高维生成模型隐空间？

本文目标 设计一种查询高效、信息需求少的黑盒模型反转方法。

切入角度：将隐空间搜索建模为序贯决策问题，用 PPO 的策略优化能力替代梯度估计。

核心 idea：用 PPO 智能体在 StyleGAN2 隐空间中导航，通过动量状态转移 + 双重奖励平衡来高效重建目标类别人脸。

给定预训练生成器 G 和目标模型 T，PPO 智能体在 G 的隐空间中移动。状态 \(s_t\) 和动作 \(a_t\) 都是隐空间中的向量，通过动量转移 \(s_{t+1} = \alpha s_t + (1-\alpha)a_t\) 更新状态，以目标模型的分类概率为奖励信号训练策略。

MDP 形式化:
- 功能：将模型反转定义为可学习的序贯决策
- 核心思路：状态空间 \(S \in \mathbb{R}^{z_{dim}}\) 和动作空间 \(A \in \mathbb{R}^{z_{dim}}\) 均为隐空间向量
- 设计动机：RL 天然适合无梯度的迭代搜索问题
动量状态转移:
- 功能：平滑隐空间探索，防止剧烈跳跃
- 核心思路：\(s_{t+1} = \alpha s_t + (1-\alpha)a_t\)，\(\alpha\) 控制惯性
- 设计动机：直接跳到新位置会导致生成图像不连续，动量保证平滑过渡
平衡奖励函数:
- 功能：同时驱动分类准确和空间探索
- 核心思路：\(R = \lambda_1 R_{\text{class}}(s_t) + \lambda_2 R_{\text{class}}(a_t) + \lambda_3 R_{\text{explore}}(s_t, a_t)\)，其中 \(R_{\text{explore}} = \beta \cdot \mathbf{1}[T(G(s_t)) \neq T(G(a_t))]\)
- 设计动机：纯分类奖励导致过早收敛到局部最优，探索奖励鼓励发现多样区域

数据集	方法	攻击成功率 ↑	查询数
CelebA	KED-MI (白盒)	72.4%	-
CelebA	RLB-MI (黑盒)	76.3%	40K
CelebA	PPO-MI	79.7%	20K
PubFig83	RLB-MI	41.5%	40K
PubFig83	PPO-MI	44.3%	20K
FaceScrub	KED-MI (白盒)	47.8%	-
FaceScrub	PPO-MI	48.5%	20K