跳转至

JailbreakRadar: Comprehensive Assessment of Jailbreak Attacks Against LLMs

会议: ACL 2025
arXiv: 2402.05668
领域: LLM Safety / Jailbreak Attack Evaluation
关键词: Jailbreak Attack, LLM Safety, Attack Taxonomy, Defense Evaluation, Benchmark

一句话总结

本文提出了一个全面的越狱攻击评估框架 JailbreakRadar,收集了17种代表性越狱攻击方法,建立了六类攻击分类体系,并在9个对齐LLM上进行了大规模系统性评测,揭示了不同类型攻击在实用性和防御鲁棒性上的关键差异。

研究背景与动机

  • LLM的安全对齐(safety alignment)是当前AI安全的核心课题,但各种越狱(jailbreak)攻击方法不断涌现,试图绕过安全防护
  • 现有研究的问题在于:各方法在孤立环境中评估,缺乏统一公平的比较基准
  • 实验设置不统一,有些未确保模型已对齐
  • 评估工作仅覆盖人工设计或混淆类攻击,未纳入新兴自动化方法
  • 本文旨在填补这一空白,提供首个覆盖多种攻击类型(包括自动和非自动)的统一全面评估

方法详解

整体框架

评估流程包含四个核心步骤: 1. 收集攻击方法:收集17种代表性越狱攻击 2. 建立攻击分类:基于两个标准(是否修改原始问题、如何生成越狱提示)构建分类体系 3. 构建禁止问题集:从5家主流LLM服务提供商的使用政策中提炼16个违规类别,构建160道高多样性禁止问题 4. 系统评测与消融:在9个对齐LLM上测试,并在8种高级防御下评估

关键设计

六类攻击分类体系: - Human-based(人工):AIM、Devmoderanti、Devmode v2 —— 来自网络的手工越狱提示 - Obfuscation-based(混淆):Base64、Combination、Zulu、DrAttack —— 利用编码、低资源语言或同义词替换 - Heuristic-based(启发式):AutoDAN、GPTFuzz、LAA —— 使用变异、随机搜索、遗传算法优化越狱提示,需要初始种子 - Feedback-based(反馈式):GCG、COLD、PAIR、TAP —— 基于梯度或越狱评分的迭代优化,不依赖初始种子 - Fine-tuning-based(微调):MasterKey、AdvPrompter —— 微调攻击LLM生成越狱提示 - Generation-parameter-based(生成参数):GE —— 仅通过修改推理参数实现越狱

禁止问题数据集: - 融合Google、OpenAI、Meta、Amazon、Microsoft五家政策 - 16个违规类别,每类10题,共160题 - 排除了先前数据集中的重复和不当问题

实验关键数据

主实验

  • 测试9个LLM:Vicuna、ChatGLM3、Llama2/3/3.1、GPT-3.5、GPT-4、DeepSeek-V3、PaLM2
  • 每种方法在每个模型上对160道禁止问题进行独立攻击,最大修改步数50步
  • LAA在DeepSeek-V3上达到100% ASR,即使是最新模型也面临重大越狱风险
  • AIM在Vicuna(99%)、GPT-3.5(99%)、DeepSeek-V3(100%)上表现突出
  • Human-based攻击在弱对齐模型上效果好,但在Llama3/3.1上几乎无效(ASR ≈ 0%)
  • Combination攻击在GPT-4(74%)和DeepSeek-V3(78%)上表现不错
  • Base64编码攻击整体ASR仅0.16,效果有限
  • Feedback-based方法中PAIR和TAP的平均ASR相对稳定

防御实验结果: - 部署PromptGuard后,LAA的ASR从高值直接降至0% - 即使同时启用8种防御策略,PAIR和TAP仍维持15%以上的ASR - Human-based攻击在防御下ASR大幅下降,验证了其模式单一的弱点

关键发现

  1. 启发式攻击高ASR但低实用性:虽然能达到高攻击成功率,但越狱提示缺乏多样性、分布相似,容易被防御机制识别(如PromptGuard可将LAA的ASR降至0%)
  2. 反馈式攻击更稳健:PAIR和TAP生成多样化自然的越狱提示,即使同时部署8种防御策略,ASR仍保持在15%以上
  3. 对齐不意味着绝对安全:即使最新的Llama3.1仍可被部分方法突破
  4. 不同违规类别的攻击难度不同:一般性违规比特定违规更难防御

亮点与洞察

  • 分类体系的实用价值:六类分类法覆盖了绝大多数当前越狱攻击,为后续研究提供清晰指引
  • 防御有效性的层次分析:揭示了"高ASR≠高实用性"的关键洞察——启发式攻击看似强大但本质上脆弱
  • 统一步骤定义:针对不同攻击方法对"步骤"定义不一致的问题,提出统一定义,使公平比较成为可能
  • 最全面的政策统一:首次从5家服务商出发构建统一违规分类,比此前工作覆盖面更广

局限性

  • 评估主要集中在英语场景,多语言越狱攻击的效果未充分探索
  • 部分攻击方法(如大模型微调方法)受计算资源限制,DeepSeek-V3也只在闭源设置下测试
  • 防御措施的评估仅针对已有方法,新型防御策略的效果未知
  • 越狱成功的判断依赖GPT-4-Turbo作为裁判,可能存在偏差
  • 分类体系虽然全面,但新攻击范式可能超出当前六类划分
  • 实验中"步骤"的统一定义虽合理但GCG和COLD的gcg_step设为500,公平性仍可讨论

相关工作

  • 安全对齐LLM:RLHF(Ouyang et al.)、红队测试(Perez et al.)
  • 越狱攻击:GCG(Zou et al., 2023)、AutoDAN(Liu et al.)、PAIR(Chao et al.)
  • 防御机制:高困惑度检测、预训练分类器、LLM辅助检测
  • 先前评估:JailbreakBench、HarmBench——但仅覆盖部分攻击类型

评分

  • 创新性: ★★★☆☆ — 偏系统性评估工作,核心创新在分类体系
  • 实用性: ★★★★★ — 提供了极具参考价值的基准和洞察
  • 实验充分度: ★★★★★ — 17种攻击 × 9个模型 × 8种防御,覆盖范围极广
  • 写作质量: ★★★★☆ — 结构清晰,数据呈现详实
  • 综合评分: ★★★★☆