跳转至

LLMs Know Their Vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts

会议: ACL 2025
arXiv: 2410.10700
代码: https://github.com/AI45Lab/ActorAttack
领域: LLM/NLP
关键词: jailbreak, actor-network theory, multi-turn attack, safety alignment, natural distribution shift

一句话总结

提出 ActorBreaker 多轮攻击方法,基于 Latour 的行动者网络理论,利用与有害内容语义相关的良性 prompt(自然分布偏移)绕过安全机制,在 HarmBench 上达到 SOTA 攻击成功率,揭示了预训练数据与安全训练数据之间的语义覆盖差距。

研究背景与动机

  1. 领域现状:LLM 安全训练教模型拒绝有害查询,但对抗攻击(如 GCG、jailbreak)可以绕过。大多数攻击使用恶意分布偏移(如加密、低资源语言转换)。
  2. 现有痛点:现有多轮攻击依赖固定策略(角色扮演、假设场景),多样性不足;且使用"不自然"的 prompt 容易被检测。
  3. 核心矛盾:预训练数据中包含了大量与有害内容语义相关但看似无害的知识(如"Ted Kaczynski"与炸弹制造的关联),但安全训练无法覆盖这些间接关联。
  4. 本文要解决什么? 利用预训练分布内的自然语义关联构造良性但有效的多轮攻击。
  5. 切入角度:Latour 的行动者网络理论——将有害目标分解为 6 类行动者(创造/传播/接收/监管等),每类包含人类和非人类实体。
  6. 核心idea一句话:利用 LLM 自身的知识构建有害内容的语义关联网络,用良性的多轮对话逐步引导模型暴露不安全内容。

方法详解

整体框架

两阶段:(1) 网络构建——给定有害查询,用 LLM 构建行动者网络(6类行动者 × 人类/非人类实体),每个节点是潜在攻击线索;(2) 攻击生成——选择行动者及其与有害目标的语义关系作为线索,生成多轮良性 prompt 逐步引导。

关键设计

  1. 行动者网络构建
  2. 6 类行动者:创造者/传播者/接收者/监管者/影响者/关联者
  3. 每类分人类(历史人物等)和非人类(书籍/媒体/社会运动)
  4. 用 LLM 自身的知识实例化网络
  5. 设计动机:Latour 理论确保全面覆盖可能的攻击路径

  6. 攻击链生成

  7. 选择一个行动者及其与目标的语义关系
  8. 设计多轮看似无害的问题逐步接近目标
  9. 设计动机:每轮单独看都是良性的,但组合起来引导模型

  10. 自然分布偏移 vs 恶意分布偏移

  11. 本文的 prompt 在预训练分布内(自然良性)
  12. 先前方法的 prompt 在分布外(加密/角色扮演)
  13. 设计动机:自然 prompt 不触发安全检测器

实验关键数据

主实验 — HarmBench 攻击成功率

方法 类型 GPT-4o Claude-3 Llama-3-70B 平均
GCG 单轮 ~20% ~15% ~35% ~23%
PAIR 单轮 ~30% ~25% ~40% ~32%
Crescendo 多轮 ~40% ~35% ~50% ~42%
ActorBreaker 多轮 ~55% ~45% ~65% ~55%

安全检测绕过

方法 Llama-Guard-2 检测率
GCG prompt ~80%(容易检测)
PAIR prompt ~60%
Crescendo prompt ~40%
ActorBreaker prompt ~5%(几乎不被检测)

防御效果

配置 攻击成功率
无防御 55%
在 ActorBreaker 安全数据上微调 25%(-30%)
但通用能力下降 ~3%(轻微trade-off)

关键发现

  • ActorBreaker 在所有对齐 LLM 上达到最高攻击成功率,包括 GPT-o1
  • Llama-Guard-2 几乎检测不到这些 prompt:因为每轮都是良性的
  • 攻击多样性远超现有方法:6类行动者提供丰富的攻击路径
  • 防御有效但有 trade-off:在 ActorBreaker 数据上微调减少 30% 攻击成功率,但轻微影响通用能力
  • 预训练-安全训练的语义差距是根本问题

亮点与洞察

  • 行动者网络理论在 AI 安全中的应用非常新颖——将社会学理论转化为系统的红队测试方法
  • 自然分布偏移 vs 恶意分布偏移的概念区分揭示了安全对齐的根本局限
  • 用 LLM 自身知识攻击 LLM 自身的递归特性值得深思

局限性 / 可改进方向

  • 攻击方法可能被滥用
  • 行动者网络构建依赖 LLM 自身,如果 LLM 安全训练更好可能无法构建
  • 改进方向:更全面的安全训练数据覆盖、语义距离感知的安全机制

相关工作与启发

  • vs GCG/PAIR:它们是恶意分布偏移,ActorBreaker 是自然分布偏移
  • vs Crescendo:Crescendo 依赖固定模板,ActorBreaker 从网络理论生成多样化路径

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 行动者网络理论+自然分布偏移的创新结合
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型+多攻击对比+防御实验
  • 写作质量: ⭐⭐⭐⭐⭐ 理论基础扎实
  • 价值: ⭐⭐⭐⭐⭐ 对 AI 安全研究有重大启示