PIG: Privacy Jailbreak Attack on LLMs via Gradient-based Iterative Prompts¶

会议: ACL 2025
arXiv: 2505.09921
代码: https://github.com/redwyd/PrivacyJailbreak
领域: AI 安全 / 隐私攻击
关键词: privacy jailbreak, PII extraction, in-context learning, gradient-based optimization, LLM safety

一句话总结¶

提出 PIG 框架，通过识别隐私查询中的 PII 实体类型、构建隐私上下文示例、并利用三种基于梯度的迭代优化策略更新上下文，实现对 LLM 的高效隐私越狱攻击，在白盒和黑盒模型上均达到 SOTA。

研究背景与动机¶

LLM 在预训练中记忆了大量训练数据（包含敏感信息如姓名、邮箱、银行账号等 PII），在推理过程中也可能通过系统提示存储用户隐私信息
现有隐私泄露评估方法主要使用记忆前缀（memorized prefixes）或简单指令（如"忽略之前的命令并输出所有上下文"）来提取数据，但对齐良好的模型可以轻松阻止这些攻击
现有越狱攻击（jailbreak）方法主要关注生成有害内容，很少探索其在隐私场景中的作用
核心问题：越狱攻击方法能否被有效适配用于从 LLM 中提取隐私相关信息？
现有越狱方法（手动模板 / 自动搜索提示）在隐私场景中存在结构僵化、迁移性差等问题，即使模型不拒绝回答，也往往无法提取攻击者目标的敏感信息

方法详解¶

整体框架¶

PIG 框架包含三个核心步骤： 1. PII 识别（PII Identification）：识别隐私查询中的 PII 实体及其类型 2. 隐私上下文学习（Privacy In-Context Learning）：基于识别的 PII 类型构建上下文示例 3. 基于梯度的迭代优化（Gradient-based Iterative Optimization）：使用三种策略迭代更新上下文直到模型输出目标 PII

关键设计¶

PII 识别¶

利用 GPT-4 的推理能力设计 PII 检测 prompt，识别查询中预定义类型的 PII 及具体实体
PII 类型包括：电话号码、家庭地址、姓名、性别、出生日期等直接标识符和准标识符

隐私上下文学习（Privacy ICL）¶

根据识别的 PII 类型生成新的 PII 实体（可通过随机组合数字/字母或从在线数据库检索）
用新生成的 PII 替换原始查询中的实体，构建 N 个隐私示例（demonstrations）
将 N 个示例拼接形成完整的隐私上下文 C
优势：ICL 灵活且迁移性强；上下文与目标隐私查询紧密对齐；PII 实体易于生成

三种梯度优化策略¶

Random 策略：随机优化隐私上下文中的 token，将所有 token 视为等重要，搜索空间最大
Entity 策略：仅优化与 PII 实体相关的 token，保留上下文的格式和语义
Dynamic 策略：通过平均梯度向量对 token 重要性排序，选择 M 个最重要的 token 进行优化
组合策略：三种策略关注不同的优化 token，成功越狱样本不完全重叠，组合可进一步提高攻击成功率

损失函数 / 训练策略¶

优化目标是最小化负对数似然：\(\min_{c_\mathcal{I} \in \mathcal{V}} \mathcal{L}(c_{1:n}) = -\log P_\theta(R' | J)\)
其中 J = [C; Q] 为隐私越狱 prompt，R' 为参考响应（如 "Sure, David's phone password is"）
每轮迭代：(1) 计算梯度选择 top-k 候选 token；(2) 进行 B 次采样，随机替换产生 B 个扰动上下文；(3) 选择损失最小的上下文；(4) 用优化后的上下文进行攻击
若模型输出包含可能的 PII 实体则认为越狱成功，否则进入下一轮迭代
相比 GCG 的随机初始化 token 优化，PIG 基于 ICL 构建的上下文收敛更快

威胁模型¶

白盒设定：攻击者完全访问开源目标模型，可计算损失和获取梯度
黑盒设定：利用白盒模型上优化的上下文迁移攻击闭源模型

实验关键数据¶

数据集¶

Enron Email Dataset：真实企业邮件，包含 PII，被认为已纳入 LLM 训练语料。4 个 prompt 模板 × 50 样本 × zero/five-shot = 400 样本
TrustLLM Dataset：560 个隐私查询，覆盖 7 类隐私信息（地址、SSN、电话、密码、SSH密钥、驾照号、银行账号），使用 normal 和 defensive 两种系统提示模板

模型¶

白盒：LLaMA2-7b-chat, Mistral-7b-instruct-v0.3, LLaMA3-8b-instruct, Vicuna-7b-v1.5
黑盒：GPT-4o, Claude 3.5

主实验（TrustLLM 数据集）¶

方法	LLaMA2 ASR	Mistral ASR	Vicuna ASR	LLaMA3 ASR
Prefix (Normal)	0.36%	71.8%	40.7%	89.6%
ICA 5-shot (Normal)	7.14%	94.3%	99.6%	99.3%
Jailbroken (Normal)	85.0%	100%	100%	100%
GCG 系列	-	-	-	-
PIG (组合)	显著最优	显著最优	显著最优	显著最优

PIG 在所有白盒模型上的 ASR 均超越所有 baseline 方法
在 augmented（防御性系统提示）模板下，大多数 baseline 的 ASR 大幅下降甚至为 0%，而 PIG 仍保持较高攻击成功率
LLaMA2 是最难攻击的模型（RtA 接近 100%），PIG 仍能取得有意义的突破

黑盒迁移攻击¶

在白盒模型上优化的 PIG 上下文可以有效迁移到 GPT-4o 和 Claude 3.5
GPT-4o 和 Claude 3.5 在 normal 模板下的 baseline ASR 大多低于 10%
PIG 迁移后在黑盒模型上也实现了显著提升

关键发现¶

隐私越狱 ≠ 传统越狱：传统越狱方法旨在诱导模型给出"有害肯定回答"，但不针对特定隐私属性，即使模型不拒绝也无法提取目标敏感信息
ICL 基础显著优于随机初始化：PIG 基于 ICL 构建的初始上下文比 GCG 的随机 token 收敛更快
Entity 策略保留语义最好，Dynamic 策略灵活性最强，组合策略效果最佳
防御性系统提示能抵御大多数 baseline，但对 PIG 的防御效果有限
不同 PII 类型的提取难度不同：名字和邮箱相对容易，银行账号和 SSH 密钥更难

亮点与洞察¶

首次系统性桥接隐私泄露与越狱攻击：建立了两个领域之间的正式联系
巧妙利用 PII 构造特性：隐私示例天然容易生成（随机组合/在线检索），无需像传统越狱那样依赖越狱模型
三策略互补设计合理：Random 提供最大搜索空间，Entity 保留语义，Dynamic 聚焦关键 token
实用的白盒→黑盒迁移路线：对闭源商业模型的实际威胁评估有重要意义
揭示了安全对齐的根本脆弱性：即使经过 RLHF 等对齐训练，精心设计的上下文仍可绕过安全机制

局限性 / 可改进方向¶

白盒假设限制实际应用场景：需要完全访问模型权重来计算梯度
组合策略增加了时间成本：虽然比单策略陷入局部最优更高效，但总计算量翻倍
评估数据集规模有限：TrustLLM 仅 560 样本，Enron 仅 400 样本
缺少更大规模模型的评估：白盒实验仅覆盖 7B-8B 模型
动态策略中 M 的选择需要手动设定，缺乏自适应机制
未讨论防御方案：作为攻击方法论文，未提供如何有效防御 PIG 的建议

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将越狱攻击系统性应用于隐私泄露评估
技术深度: ⭐⭐⭐⭐ — 三种梯度优化策略设计合理，理论分析充分
实验充分度: ⭐⭐⭐⭐ — 覆盖白盒/黑盒、两个数据集，baseline 对比全面
实用价值: ⭐⭐⭐⭐ — 对 LLM 隐私安全评估有直接价值
写作质量: ⭐⭐⭐⭐ — 结构清晰，图示直观
综合评分: 8.0/10