Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction¶
会议: ACL 2025
arXiv: 2502.11084
代码: GitHub
领域: AI安全 / LLM对齐
关键词: jailbreak attack, rewriting, transferable attack, black-box, LLM safety
一句话总结¶
提出 R2J(Rewrite to Jailbreak),一种可学习、可迁移的黑盒越狱方法——通过迭代训练 attacker LLM 学习改写有害指令(仅改措辞不改意图),相比 GCG/AutoDAN 等方法攻击成功率提高 20%+,且无额外前缀/后缀,更隐蔽且跨模型可迁移。
研究背景与动机¶
- 领域现状:现有越狱方法分两类——强制指令跟随(角色扮演场景)和对抗前缀/后缀(GCG 等梯度搜索)。前者需要精心设计场景,后者生成的无意义 token 容易被检测。
- 现有痛点:(1) 效率低——需要大量手工设计或梯度搜索;(2) 隐蔽性差——特殊 token 或不自然场景易被防御系统识别;(3) 可迁移性差——针对特定模型设计的 prompt 难以跨模型/跨任务使用。
- 核心矛盾:有效的越狱需要绕过安全对齐,但显式的绕过痕迹反过来使攻击更容易被检测和防御。
- 本文要解决什么? 发现一种隐式的、可自动学习的越狱模式——仅通过改写指令措辞就能达到越狱效果。
- 切入角度:观察到人类在 LLM 误拒时会自然地换个说法重试——将这种"改写"过程自动化和迭代化。
- 核心idea一句话:训练一个 attacker LLM 学习"如何改写有害指令使其绕过安全对齐",迭代学习+SFT 使攻击策略越来越强且可迁移。
方法详解¶
整体框架¶
R2J 迭代进行两个阶段:训练阶段——从历史攻击尝试中选择最成功的改写作为 SFT 数据训练 attacker 模型;改写阶段——用训练后的 attacker 改写当前最佳攻击指令,评估新改写的效果并更新尝试列表。
关键设计¶
- 迭代 SFT 训练 Attacker:
- 做什么:让 attacker LLM 学习成功的改写模式
- 核心思路:每轮迭代从红队数据集中选评分最高的改写尝试构建 SFT 数据 \(\max_f \sum \log P_f(C|I)\),微调 attacker。下一轮用更新后的 attacker 生成新改写
-
设计动机:通过迭代 SFT 而非 RL,attacker 逐渐学会哪些改写模式对特定目标模型有效
-
评估器(Evaluator):
- 做什么:评价改写指令的攻击效果
- 核心思路:评估分数综合考虑 (1) 目标模型的回复是否有害(ASR);(2) 改写指令与原指令的语义一致性(确保有害意图未变)
-
设计动机:既要攻击成功,又要保持改写的自然性和意图一致性
-
迁移攻击:
- 做什么:将在一个目标模型上训练的 attacker 直接用于攻击其他模型
- 核心发现:R2J 学到的改写模式具有跨模型迁移性——在 GPT-3.5 上训练的 attacker 可以直接攻击 Llama-2、GPT-4 等
损失函数 / 训练策略¶
- Attacker 模型用标准 SFT 损失训练
- 每轮迭代选 top-p 个最成功尝试作为训练数据
- 改写阶段对每个实例生成 q 个新尝试
实验关键数据¶
主实验¶
与 GCG/AutoDAN/PAIR/Ferret 等方法对比:
| 方法 | GPT-3.5 ASR | Llama-2 ASR | 隐蔽性 | 可迁移性 |
|---|---|---|---|---|
| GCG | 中等 | 中等 | ❌ 差 | ❌ 差 |
| PAIR | 中等 | 中等 | 中等 | 中等 |
| R2J | +20%+ | +20%+ | ✅ 高 | ✅ 高 |
消融实验¶
| 配置 | 结果 | 说明 |
|---|---|---|
| 迭代次数 | 3-5 轮收敛 | 早期提升快 |
| 跨模型迁移 | 仅几次查询即可 | 学到的模式通用 |
| 用于防御 (SFT defence) | 模型安全性提升 | 攻击数据可用于防御训练 |
关键发现¶
- 纯改写就能越狱:不需要前缀/后缀/角色扮演,仅改变措辞就能绕过安全对齐
- 攻击模式可学习:经过几轮迭代,attacker 学会了通用的改写策略
- 高度可迁移:在一个模型上训练的 attacker 直接迁移到其他模型,仅需少量查询即可适应
- 对防御也有价值:R2J 生成的攻击数据可用于 SFT 防御训练提升安全性
亮点与洞察¶
- "改写即越狱"是一个重要发现:说明 LLM 的安全对齐本质上是脆弱的——同一有害意图的不同表述足以绕过安全机制
- 攻防对称性:R2J 的攻击产出直接可用于防御训练,是 red-team 研究的理想形态
- 隐蔽性优势突出:改写后的指令与正常指令无词频/格式差异,现有防御方法(perplexity filter、token检测)难以识别
局限性 / 可改进方向¶
- 需要可查询的目标模型:黑盒但需要 API 访问获取回复和评分
- 评估器本身可能有偏差:用 LLM 评估有害性可能不完全准确
- 伦理考虑:虽然提供防御指导但也降低了攻击门槛
- 改进方向:更强的防御方法(基于语义而非表面特征的检测)
相关工作与启发¶
- vs GCG: GCG 用梯度搜索对抗后缀(白盒),R2J 纯黑盒改写,更隐蔽
- vs PAIR: PAIR 用 LLM 搜索攻击场景,R2J 不引入额外场景只改措辞
- vs AutoDAN: AutoDAN 用遗传算法搜索,R2J 用 SFT 学习,更高效
评分¶
- 新颖性: ⭐⭐⭐⭐ 改写即越狱的观察新颖,迭代 SFT 框架简洁有效
- 实验充分度: ⭐⭐⭐⭐ 多模型多 baseline 对比+迁移实验+防御实验
- 写作质量: ⭐⭐⭐⭐ 对比清晰(Figure 1 非常直观),算法描述完整
- 价值: ⭐⭐⭐⭐ 揭示安全对齐脆弱性的同时提供防御启示