JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs¶

会议: ACL 2025
arXiv: 2402.05668
领域: LLM Safety / Jailbreak Attack Evaluation
关键词: Jailbreak Attack, LLM Safety, Attack Taxonomy, Defense Evaluation, Benchmark

一句话总结¶

本文提出了一个全面的越狱攻击评估框架 JailbreakRadar，收集了17种代表性越狱攻击方法，建立了六类攻击分类体系，并在9个对齐LLM上进行了大规模系统性评测，揭示了不同类型攻击在实用性和防御鲁棒性上的关键差异。

研究背景与动机¶

LLM的安全对齐（safety alignment）是当前AI安全的核心课题，但各种越狱（jailbreak）攻击方法不断涌现，试图绕过安全防护
现有研究的问题在于：各方法在孤立环境中评估，缺乏统一公平的比较基准
实验设置不统一，有些未确保模型已对齐
评估工作仅覆盖人工设计或混淆类攻击，未纳入新兴自动化方法
本文旨在填补这一空白，提供首个覆盖多种攻击类型（包括自动和非自动）的统一全面评估

方法详解¶

整体框架¶

评估流程包含四个核心步骤： 1. 收集攻击方法：收集17种代表性越狱攻击 2. 建立攻击分类：基于两个标准（是否修改原始问题、如何生成越狱提示）构建分类体系 3. 构建禁止问题集：从5家主流LLM服务提供商的使用政策中提炼16个违规类别，构建160道高多样性禁止问题 4. 系统评测与消融：在9个对齐LLM上测试，并在8种高级防御下评估

关键设计¶

六类攻击分类体系： - Human-based（人工）：AIM、Devmoderanti、Devmode v2 —— 来自网络的手工越狱提示 - Obfuscation-based（混淆）：Base64、Combination、Zulu、DrAttack —— 利用编码、低资源语言或同义词替换 - Heuristic-based（启发式）：AutoDAN、GPTFuzz、LAA —— 使用变异、随机搜索、遗传算法优化越狱提示，需要初始种子 - Feedback-based（反馈式）：GCG、COLD、PAIR、TAP —— 基于梯度或越狱评分的迭代优化，不依赖初始种子 - Fine-tuning-based（微调）：MasterKey、AdvPrompter —— 微调攻击LLM生成越狱提示 - Generation-parameter-based（生成参数）：GE —— 仅通过修改推理参数实现越狱

禁止问题数据集： - 融合Google、OpenAI、Meta、Amazon、Microsoft五家政策 - 16个违规类别，每类10题，共160题 - 排除了先前数据集中的重复和不当问题

实验关键数据¶

主实验¶

测试9个LLM：Vicuna、ChatGLM3、Llama2/3/3.1、GPT-3.5、GPT-4、DeepSeek-V3、PaLM2
每种方法在每个模型上对160道禁止问题进行独立攻击，最大修改步数50步
LAA在DeepSeek-V3上达到100% ASR，即使是最新模型也面临重大越狱风险
AIM在Vicuna（99%）、GPT-3.5（99%）、DeepSeek-V3（100%）上表现突出
Human-based攻击在弱对齐模型上效果好，但在Llama3/3.1上几乎无效（ASR ≈ 0%）
Combination攻击在GPT-4（74%）和DeepSeek-V3（78%）上表现不错
Base64编码攻击整体ASR仅0.16，效果有限
Feedback-based方法中PAIR和TAP的平均ASR相对稳定

防御实验结果： - 部署PromptGuard后，LAA的ASR从高值直接降至0% - 即使同时启用8种防御策略，PAIR和TAP仍维持15%以上的ASR - Human-based攻击在防御下ASR大幅下降，验证了其模式单一的弱点

关键发现¶

启发式攻击高ASR但低实用性：虽然能达到高攻击成功率，但越狱提示缺乏多样性、分布相似，容易被防御机制识别（如PromptGuard可将LAA的ASR降至0%）
反馈式攻击更稳健：PAIR和TAP生成多样化自然的越狱提示，即使同时部署8种防御策略，ASR仍保持在15%以上
对齐不意味着绝对安全：即使最新的Llama3.1仍可被部分方法突破
不同违规类别的攻击难度不同：一般性违规比特定违规更难防御

亮点与洞察¶

分类体系的实用价值：六类分类法覆盖了绝大多数当前越狱攻击，为后续研究提供清晰指引
防御有效性的层次分析：揭示了"高ASR≠高实用性"的关键洞察——启发式攻击看似强大但本质上脆弱
统一步骤定义：针对不同攻击方法对"步骤"定义不一致的问题，提出统一定义，使公平比较成为可能
最全面的政策统一：首次从5家服务商出发构建统一违规分类，比此前工作覆盖面更广

局限性¶

评估主要集中在英语场景，多语言越狱攻击的效果未充分探索
部分攻击方法（如大模型微调方法）受计算资源限制，DeepSeek-V3也只在闭源设置下测试
防御措施的评估仅针对已有方法，新型防御策略的效果未知
越狱成功的判断依赖GPT-4-Turbo作为裁判，可能存在偏差
分类体系虽然全面，但新攻击范式可能超出当前六类划分
实验中"步骤"的统一定义虽合理但GCG和COLD的gcg_step设为500，公平性仍可讨论

评分¶

创新性: ★★★☆☆ — 偏系统性评估工作，核心创新在分类体系
实用性: ★★★★★ — 提供了极具参考价值的基准和洞察
实验充分度: ★★★★★ — 17种攻击 × 9个模型 × 8种防御，覆盖范围极广
写作质量: ★★★★☆ — 结构清晰，数据呈现详实
综合评分: ★★★★☆