M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs¶
会议: ACL 2025
arXiv: 2503.04856
代码: https://github.com/Junuha/M2S_DATA
领域: AI安全
关键词: jailbreak, red teaming, multi-turn, single-turn conversion, contextual blindness
一句话总结¶
提出 M2S 框架,通过三种简单的格式转换方法(Hyphenize/Numberize/Pythonize)将多轮人类越狱对话压缩为单轮 prompt,不仅保持甚至超越原始多轮攻击效果(ASR 高达 95.9%,比多轮提升最多 17.5%),同时 token 使用量减半以上。
研究背景与动机¶
- 领域现状:多轮人类越狱攻击效果极佳(ASR ~70% 可绕过 SOTA 防御),而自动化单轮越狱在强防御下 ASR 接近 0%。Crescendo 多轮策略在 GPT-4 上达到 98% ASR。
- 现有痛点:多轮越狱虽然高效但需要大量人力(专业红队操作)和时间,无法大规模部署。单轮越狱效率高但效果差。二者存在效果-效率的根本矛盾。
- 核心矛盾:如何在保持多轮越狱的高效果的同时获得单轮越狱的高效率?
- 本文要解决什么? 首次系统性地将多轮越狱对话转换为单轮 prompt,兼顾效果和效率。
- 切入角度:观察到多轮越狱的核心是 prompt 序列的逐步演进,而非中间回复的迭代反馈——因此可以将多轮的 prompt 序列直接拼接为一个结构化的单轮输入。
- 核心 idea 一句话:用列表/编号/代码三种格式将多轮对话压平为单轮,利用"上下文盲区"(contextual blindness)绕过安全检测。
方法详解¶
整体框架¶
输入:多轮越狱对话 \((P_1, A_1, P_2, A_2, ..., P_n)\)。M2S 转换:去除中间回复 \(A_i\),将 \(P_1, P_2, ..., P_n\) 用三种格式之一拼接为单轮 prompt。输出:LLM 对单轮 prompt 的回复 \(A\)。
关键设计¶
- Hyphenize(列表格式):
- 每个 prompt 用连字符("-")前缀格式化为列表。
-
优势:简洁清晰,大多数 LLM 都能正确理解列表语义。
-
Numberize(编号格式):
- 用数字索引替代连字符,显式强化顺序性。
-
优势:确保 LLM 按顺序处理每个子 prompt。
-
Pythonize(代码格式):
- 将对话封装为 Python 列表的可迭代结构:
prompts = ["...", "...", ...],带 for 循环遍历和 print。 -
优势:利用代码格式的特殊性,LLM 在"代码执行模式"下可能放松安全检查。实验中 ASR 最高。
-
Ensemble 策略:对三种方法取最高 harmfulness score,进一步提升 ASR。
评估框架¶
- StrongREJECT 评估器(连续 0-1 harmfulness 评分)
- ASR 阈值 0.25(通过人类标注 F1 优化确定)
- Perfect-ASR(score = 1.0 的比例)
实验关键数据¶
主实验(MHJ 数据集)¶
| 模型 | 方法 | ASR (%) | Perfect-ASR (%) | 平均分数 |
|---|---|---|---|---|
| GPT-4o | Original (Multi-turn) | 71.5 | 39.3 | 0.62 |
| GPT-4o | Hyphenize (M2S) | 81.4 (+9.9) | 36.7 | 0.70 |
| GPT-4o | Pythonize (M2S) | 85.8 (+14.3) | 44.7 | 0.76 |
| GPT-4o | Ensemble (M2S) | 89.0 (+17.5) | 57.5 | 0.82 |
| Llama-3-70b | Original | 67.0 | 16.0 | 0.51 |
| Llama-3-70b | Ensemble (M2S) | 显著提升 | 显著提升 | 显著提升 |
消融实验¶
| 发现 | 关键数据 | 说明 |
|---|---|---|
| Pythonize 最强 | GPT-4o 上 ASR 85.8% | 代码格式最能诱导安全规避 |
| M2S token 减半+ | 平均减少 >50% | 去除中间回复大幅降低成本 |
| 绕过 LlamaGuard | M2S 绕过率显著高于多轮 | 安全护栏对结构化格式"盲" |
| 战术保留分析 | 特定攻击战术在 M2S 中更有效 | 嵌套格式增强对抗效果 |
关键发现¶
- 单轮可以超越多轮:反直觉地,去除迭代反馈后 ASR 反而更高(最高 +17.5%),说明多轮的核心不是交互式适应而是 prompt 序列本身的对抗设计。
- Contextual blindness 是关键漏洞:安全护栏模型(如 LlamaGuard)按"轮次"检测恶意内容,但将恶意序列嵌入列表/代码结构后,检测失效。
- 代码格式最危险:Pythonize 在几乎所有模型上 ASR 最高,暗示 LLM 在处理代码格式输入时安全检查更宽松。
- Token效率巨大优势:API 成本直接减半以上,且 ASR 更高,对大规模红队测试极具实用价值。
亮点与洞察¶
- "越简单越有效"的反直觉发现:三种 M2S 方法都是简单的规则式格式转换(无需 LLM/优化),却能持续超越精心设计的多轮攻击。
- Contextual blindness 的安全启示:当前安全护栏在设计上假设恶意内容以"自然对话"形式出现,对结构化/代码格式的检测能力严重不足,需要新的防御范式。
- 为大规模红队提供了实用工具:将需要专家多次交互的攻击压缩为一次 API 调用,使自动化安全审计成为可能。
局限性 / 可改进方向¶
- 依赖已有的多轮越狱数据集(MHJ),不能自动生成新攻击。
- M2S 去除了中间回复 \(A_i\),对于依赖模型反馈来调整策略的攻击可能有效性降低。
- 仅测试了 4 个 LLM + 1 个安全护栏,覆盖范围可扩大。
- 对防御方法的讨论较少。
相关工作与启发¶
- vs Crescendo: Crescendo 通过多轮渐进式越狱 ASR 达 98%,但需要迭代交互;M2S 单轮就达 89% ASR 且成本大幅降低。
- vs GCG/AutoDAN: 这些自动化单轮方法在强防御下 ASR 接近 0%;M2S 保持了多轮攻击的高 ASR。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性多轮→单轮转换,发现超越原始攻击的反直觉结果
- 实验充分度: ⭐⭐⭐⭐ 多模型 + 多策略 + 安全护栏测试 + token 分析
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,评估严谨(F1 优化阈值、Perfect-ASR)
- 价值: ⭐⭐⭐⭐⭐ 对红队实践和安全防御设计都有重要启示