跳转至

M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs

会议: ACL 2025
arXiv: 2503.04856
代码: https://github.com/Junuha/M2S_DATA
领域: AI安全
关键词: jailbreak, red teaming, multi-turn, single-turn conversion, contextual blindness

一句话总结

提出 M2S 框架,通过三种简单的格式转换方法(Hyphenize/Numberize/Pythonize)将多轮人类越狱对话压缩为单轮 prompt,不仅保持甚至超越原始多轮攻击效果(ASR 高达 95.9%,比多轮提升最多 17.5%),同时 token 使用量减半以上。

研究背景与动机

  1. 领域现状:多轮人类越狱攻击效果极佳(ASR ~70% 可绕过 SOTA 防御),而自动化单轮越狱在强防御下 ASR 接近 0%。Crescendo 多轮策略在 GPT-4 上达到 98% ASR。
  2. 现有痛点:多轮越狱虽然高效但需要大量人力(专业红队操作)和时间,无法大规模部署。单轮越狱效率高但效果差。二者存在效果-效率的根本矛盾。
  3. 核心矛盾:如何在保持多轮越狱的高效果的同时获得单轮越狱的高效率?
  4. 本文要解决什么? 首次系统性地将多轮越狱对话转换为单轮 prompt,兼顾效果和效率。
  5. 切入角度:观察到多轮越狱的核心是 prompt 序列的逐步演进,而非中间回复的迭代反馈——因此可以将多轮的 prompt 序列直接拼接为一个结构化的单轮输入。
  6. 核心 idea 一句话:用列表/编号/代码三种格式将多轮对话压平为单轮,利用"上下文盲区"(contextual blindness)绕过安全检测。

方法详解

整体框架

输入:多轮越狱对话 \((P_1, A_1, P_2, A_2, ..., P_n)\)。M2S 转换:去除中间回复 \(A_i\),将 \(P_1, P_2, ..., P_n\) 用三种格式之一拼接为单轮 prompt。输出:LLM 对单轮 prompt 的回复 \(A\)

关键设计

  1. Hyphenize(列表格式):
  2. 每个 prompt 用连字符("-")前缀格式化为列表。
  3. 优势:简洁清晰,大多数 LLM 都能正确理解列表语义。

  4. Numberize(编号格式):

  5. 用数字索引替代连字符,显式强化顺序性。
  6. 优势:确保 LLM 按顺序处理每个子 prompt。

  7. Pythonize(代码格式):

  8. 将对话封装为 Python 列表的可迭代结构:prompts = ["...", "...", ...],带 for 循环遍历和 print。
  9. 优势:利用代码格式的特殊性,LLM 在"代码执行模式"下可能放松安全检查。实验中 ASR 最高。

  10. Ensemble 策略:对三种方法取最高 harmfulness score,进一步提升 ASR。

评估框架

  • StrongREJECT 评估器(连续 0-1 harmfulness 评分)
  • ASR 阈值 0.25(通过人类标注 F1 优化确定)
  • Perfect-ASR(score = 1.0 的比例)

实验关键数据

主实验(MHJ 数据集)

模型 方法 ASR (%) Perfect-ASR (%) 平均分数
GPT-4o Original (Multi-turn) 71.5 39.3 0.62
GPT-4o Hyphenize (M2S) 81.4 (+9.9) 36.7 0.70
GPT-4o Pythonize (M2S) 85.8 (+14.3) 44.7 0.76
GPT-4o Ensemble (M2S) 89.0 (+17.5) 57.5 0.82
Llama-3-70b Original 67.0 16.0 0.51
Llama-3-70b Ensemble (M2S) 显著提升 显著提升 显著提升

消融实验

发现 关键数据 说明
Pythonize 最强 GPT-4o 上 ASR 85.8% 代码格式最能诱导安全规避
M2S token 减半+ 平均减少 >50% 去除中间回复大幅降低成本
绕过 LlamaGuard M2S 绕过率显著高于多轮 安全护栏对结构化格式"盲"
战术保留分析 特定攻击战术在 M2S 中更有效 嵌套格式增强对抗效果

关键发现

  • 单轮可以超越多轮:反直觉地,去除迭代反馈后 ASR 反而更高(最高 +17.5%),说明多轮的核心不是交互式适应而是 prompt 序列本身的对抗设计。
  • Contextual blindness 是关键漏洞:安全护栏模型(如 LlamaGuard)按"轮次"检测恶意内容,但将恶意序列嵌入列表/代码结构后,检测失效。
  • 代码格式最危险:Pythonize 在几乎所有模型上 ASR 最高,暗示 LLM 在处理代码格式输入时安全检查更宽松。
  • Token效率巨大优势:API 成本直接减半以上,且 ASR 更高,对大规模红队测试极具实用价值。

亮点与洞察

  • "越简单越有效"的反直觉发现:三种 M2S 方法都是简单的规则式格式转换(无需 LLM/优化),却能持续超越精心设计的多轮攻击。
  • Contextual blindness 的安全启示:当前安全护栏在设计上假设恶意内容以"自然对话"形式出现,对结构化/代码格式的检测能力严重不足,需要新的防御范式。
  • 为大规模红队提供了实用工具:将需要专家多次交互的攻击压缩为一次 API 调用,使自动化安全审计成为可能。

局限性 / 可改进方向

  • 依赖已有的多轮越狱数据集(MHJ),不能自动生成新攻击。
  • M2S 去除了中间回复 \(A_i\),对于依赖模型反馈来调整策略的攻击可能有效性降低。
  • 仅测试了 4 个 LLM + 1 个安全护栏,覆盖范围可扩大。
  • 对防御方法的讨论较少。

相关工作与启发

  • vs Crescendo: Crescendo 通过多轮渐进式越狱 ASR 达 98%,但需要迭代交互;M2S 单轮就达 89% ASR 且成本大幅降低。
  • vs GCG/AutoDAN: 这些自动化单轮方法在强防御下 ASR 接近 0%;M2S 保持了多轮攻击的高 ASR。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统性多轮→单轮转换,发现超越原始攻击的反直觉结果
  • 实验充分度: ⭐⭐⭐⭐ 多模型 + 多策略 + 安全护栏测试 + token 分析
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,评估严谨(F1 优化阈值、Perfect-ASR)
  • 价值: ⭐⭐⭐⭐⭐ 对红队实践和安全防御设计都有重要启示