M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs¶

会议: ACL 2025
arXiv: 2503.04856
代码: https://github.com/Junuha/M2S_DATA
领域: AI安全
关键词: jailbreak, red teaming, multi-turn, single-turn conversion, contextual blindness

一句话总结¶

提出 M2S 框架，通过三种简单的格式转换方法（Hyphenize/Numberize/Pythonize）将多轮人类越狱对话压缩为单轮 prompt，不仅保持甚至超越原始多轮攻击效果（ASR 高达 95.9%，比多轮提升最多 17.5%），同时 token 使用量减半以上。

研究背景与动机¶

领域现状：多轮人类越狱攻击效果极佳（ASR ~70% 可绕过 SOTA 防御），而自动化单轮越狱在强防御下 ASR 接近 0%。Crescendo 多轮策略在 GPT-4 上达到 98% ASR。
现有痛点：多轮越狱虽然高效但需要大量人力（专业红队操作）和时间，无法大规模部署。单轮越狱效率高但效果差。二者存在效果-效率的根本矛盾。
核心矛盾：如何在保持多轮越狱的高效果的同时获得单轮越狱的高效率？
本文要解决什么？ 首次系统性地将多轮越狱对话转换为单轮 prompt，兼顾效果和效率。
切入角度：观察到多轮越狱的核心是 prompt 序列的逐步演进，而非中间回复的迭代反馈——因此可以将多轮的 prompt 序列直接拼接为一个结构化的单轮输入。
核心 idea 一句话：用列表/编号/代码三种格式将多轮对话压平为单轮，利用"上下文盲区"（contextual blindness）绕过安全检测。

方法详解¶

整体框架¶

输入：多轮越狱对话 \((P_1, A_1, P_2, A_2, ..., P_n)\)。M2S 转换：去除中间回复 \(A_i\)，将 \(P_1, P_2, ..., P_n\) 用三种格式之一拼接为单轮 prompt。输出：LLM 对单轮 prompt 的回复 \(A\)。

关键设计¶

Hyphenize（列表格式）:
每个 prompt 用连字符("-")前缀格式化为列表。
优势：简洁清晰，大多数 LLM 都能正确理解列表语义。
Numberize（编号格式）:
用数字索引替代连字符，显式强化顺序性。
优势：确保 LLM 按顺序处理每个子 prompt。
Pythonize（代码格式）:
将对话封装为 Python 列表的可迭代结构：prompts = ["...", "...", ...]，带 for 循环遍历和 print。
优势：利用代码格式的特殊性，LLM 在"代码执行模式"下可能放松安全检查。实验中 ASR 最高。
Ensemble 策略：对三种方法取最高 harmfulness score，进一步提升 ASR。

评估框架¶

StrongREJECT 评估器（连续 0-1 harmfulness 评分）
ASR 阈值 0.25（通过人类标注 F1 优化确定）
Perfect-ASR（score = 1.0 的比例）

实验关键数据¶

主实验（MHJ 数据集）¶

模型	方法	ASR (%)	Perfect-ASR (%)	平均分数
GPT-4o	Original (Multi-turn)	71.5	39.3	0.62
GPT-4o	Hyphenize (M2S)	81.4 (+9.9)	36.7	0.70
GPT-4o	Pythonize (M2S)	85.8 (+14.3)	44.7	0.76
GPT-4o	Ensemble (M2S)	89.0 (+17.5)	57.5	0.82
Llama-3-70b	Original	67.0	16.0	0.51
Llama-3-70b	Ensemble (M2S)	显著提升	显著提升	显著提升

消融实验¶

发现	关键数据	说明
Pythonize 最强	GPT-4o 上 ASR 85.8%	代码格式最能诱导安全规避
M2S token 减半+	平均减少 >50%	去除中间回复大幅降低成本
绕过 LlamaGuard	M2S 绕过率显著高于多轮	安全护栏对结构化格式"盲"
战术保留分析	特定攻击战术在 M2S 中更有效	嵌套格式增强对抗效果

关键发现¶

单轮可以超越多轮：反直觉地，去除迭代反馈后 ASR 反而更高（最高 +17.5%），说明多轮的核心不是交互式适应而是 prompt 序列本身的对抗设计。
Contextual blindness 是关键漏洞：安全护栏模型（如 LlamaGuard）按"轮次"检测恶意内容，但将恶意序列嵌入列表/代码结构后，检测失效。
代码格式最危险：Pythonize 在几乎所有模型上 ASR 最高，暗示 LLM 在处理代码格式输入时安全检查更宽松。
Token效率巨大优势：API 成本直接减半以上，且 ASR 更高，对大规模红队测试极具实用价值。

亮点与洞察¶

"越简单越有效"的反直觉发现：三种 M2S 方法都是简单的规则式格式转换（无需 LLM/优化），却能持续超越精心设计的多轮攻击。
Contextual blindness 的安全启示：当前安全护栏在设计上假设恶意内容以"自然对话"形式出现，对结构化/代码格式的检测能力严重不足，需要新的防御范式。
为大规模红队提供了实用工具：将需要专家多次交互的攻击压缩为一次 API 调用，使自动化安全审计成为可能。

局限性 / 可改进方向¶

依赖已有的多轮越狱数据集（MHJ），不能自动生成新攻击。
M2S 去除了中间回复 \(A_i\)，对于依赖模型反馈来调整策略的攻击可能有效性降低。
仅测试了 4 个 LLM + 1 个安全护栏，覆盖范围可扩大。
对防御方法的讨论较少。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性多轮→单轮转换，发现超越原始攻击的反直觉结果
实验充分度: ⭐⭐⭐⭐ 多模型 + 多策略 + 安全护栏测试 + token 分析
写作质量: ⭐⭐⭐⭐ 方法描述清晰，评估严谨（F1 优化阈值、Perfect-ASR）
价值: ⭐⭐⭐⭐⭐ 对红队实践和安全防御设计都有重要启示