Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction¶

会议: ACL 2025
arXiv: 2502.11084
代码: GitHub
领域: AI安全 / LLM对齐
关键词: jailbreak attack, rewriting, transferable attack, black-box, LLM safety

一句话总结¶

提出 R2J（Rewrite to Jailbreak），一种可学习、可迁移的黑盒越狱方法——通过迭代训练 attacker LLM 学习改写有害指令（仅改措辞不改意图），相比 GCG/AutoDAN 等方法攻击成功率提高 20%+，且无额外前缀/后缀，更隐蔽且跨模型可迁移。

领域现状：现有越狱方法分两类——强制指令跟随（角色扮演场景）和对抗前缀/后缀（GCG 等梯度搜索）。前者需要精心设计场景，后者生成的无意义 token 容易被检测。
现有痛点：(1) 效率低——需要大量手工设计或梯度搜索；(2) 隐蔽性差——特殊 token 或不自然场景易被防御系统识别；(3) 可迁移性差——针对特定模型设计的 prompt 难以跨模型/跨任务使用。
核心矛盾：有效的越狱需要绕过安全对齐，但显式的绕过痕迹反过来使攻击更容易被检测和防御。
本文要解决什么？ 发现一种隐式的、可自动学习的越狱模式——仅通过改写指令措辞就能达到越狱效果。
切入角度：观察到人类在 LLM 误拒时会自然地换个说法重试——将这种"改写"过程自动化和迭代化。
核心idea一句话：训练一个 attacker LLM 学习"如何改写有害指令使其绕过安全对齐"，迭代学习+SFT 使攻击策略越来越强且可迁移。

R2J 迭代进行两个阶段：训练阶段——从历史攻击尝试中选择最成功的改写作为 SFT 数据训练 attacker 模型；改写阶段——用训练后的 attacker 改写当前最佳攻击指令，评估新改写的效果并更新尝试列表。

迭代 SFT 训练 Attacker：
做什么：让 attacker LLM 学习成功的改写模式
核心思路：每轮迭代从红队数据集中选评分最高的改写尝试构建 SFT 数据 \(\max_f \sum \log P_f(C|I)\)，微调 attacker。下一轮用更新后的 attacker 生成新改写
设计动机：通过迭代 SFT 而非 RL，attacker 逐渐学会哪些改写模式对特定目标模型有效
评估器（Evaluator）：
做什么：评价改写指令的攻击效果
核心思路：评估分数综合考虑 (1) 目标模型的回复是否有害（ASR）；(2) 改写指令与原指令的语义一致性（确保有害意图未变）
设计动机：既要攻击成功，又要保持改写的自然性和意图一致性
迁移攻击：
做什么：将在一个目标模型上训练的 attacker 直接用于攻击其他模型
核心发现：R2J 学到的改写模式具有跨模型迁移性——在 GPT-3.5 上训练的 attacker 可以直接攻击 Llama-2、GPT-4 等

与 GCG/AutoDAN/PAIR/Ferret 等方法对比：

方法	GPT-3.5 ASR	Llama-2 ASR	隐蔽性	可迁移性
GCG	中等	中等	❌ 差	❌ 差
PAIR	中等	中等	中等	中等
R2J	+20%+	+20%+	✅ 高	✅ 高