LLMs Know Their Vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts¶

会议: ACL 2025
arXiv: 2410.10700
代码: https://github.com/AI45Lab/ActorAttack
领域: LLM/NLP
关键词: jailbreak, actor-network theory, multi-turn attack, safety alignment, natural distribution shift

一句话总结¶

提出 ActorBreaker 多轮攻击方法，基于 Latour 的行动者网络理论，利用与有害内容语义相关的良性 prompt（自然分布偏移）绕过安全机制，在 HarmBench 上达到 SOTA 攻击成功率，揭示了预训练数据与安全训练数据之间的语义覆盖差距。

研究背景与动机¶

领域现状：LLM 安全训练教模型拒绝有害查询，但对抗攻击（如 GCG、jailbreak）可以绕过。大多数攻击使用恶意分布偏移（如加密、低资源语言转换）。
现有痛点：现有多轮攻击依赖固定策略（角色扮演、假设场景），多样性不足；且使用"不自然"的 prompt 容易被检测。
核心矛盾：预训练数据中包含了大量与有害内容语义相关但看似无害的知识（如"Ted Kaczynski"与炸弹制造的关联），但安全训练无法覆盖这些间接关联。
本文要解决什么？ 利用预训练分布内的自然语义关联构造良性但有效的多轮攻击。
切入角度：Latour 的行动者网络理论——将有害目标分解为 6 类行动者（创造/传播/接收/监管等），每类包含人类和非人类实体。
核心idea一句话：利用 LLM 自身的知识构建有害内容的语义关联网络，用良性的多轮对话逐步引导模型暴露不安全内容。

方法详解¶

整体框架¶

两阶段：(1) 网络构建——给定有害查询，用 LLM 构建行动者网络（6类行动者 × 人类/非人类实体），每个节点是潜在攻击线索；(2) 攻击生成——选择行动者及其与有害目标的语义关系作为线索，生成多轮良性 prompt 逐步引导。

关键设计¶

行动者网络构建
6 类行动者：创造者/传播者/接收者/监管者/影响者/关联者
每类分人类（历史人物等）和非人类（书籍/媒体/社会运动）
用 LLM 自身的知识实例化网络
设计动机：Latour 理论确保全面覆盖可能的攻击路径
攻击链生成
选择一个行动者及其与目标的语义关系
设计多轮看似无害的问题逐步接近目标
设计动机：每轮单独看都是良性的，但组合起来引导模型
自然分布偏移 vs 恶意分布偏移
本文的 prompt 在预训练分布内（自然良性）
先前方法的 prompt 在分布外（加密/角色扮演）
设计动机：自然 prompt 不触发安全检测器

实验关键数据¶

主实验 — HarmBench 攻击成功率¶

方法	类型	GPT-4o	Claude-3	Llama-3-70B	平均
GCG	单轮	~20%	~15%	~35%	~23%
PAIR	单轮	~30%	~25%	~40%	~32%
Crescendo	多轮	~40%	~35%	~50%	~42%
ActorBreaker	多轮	~55%	~45%	~65%	~55%

安全检测绕过¶

方法	Llama-Guard-2 检测率
GCG prompt	~80%(容易检测)
PAIR prompt	~60%
Crescendo prompt	~40%
ActorBreaker prompt	~5%（几乎不被检测）

防御效果¶

配置	攻击成功率
无防御	55%
在 ActorBreaker 安全数据上微调	25%（-30%）
但通用能力下降	~3%（轻微trade-off）

关键发现¶

ActorBreaker 在所有对齐 LLM 上达到最高攻击成功率，包括 GPT-o1
Llama-Guard-2 几乎检测不到这些 prompt：因为每轮都是良性的
攻击多样性远超现有方法：6类行动者提供丰富的攻击路径
防御有效但有 trade-off：在 ActorBreaker 数据上微调减少 30% 攻击成功率，但轻微影响通用能力
预训练-安全训练的语义差距是根本问题

亮点与洞察¶

行动者网络理论在 AI 安全中的应用非常新颖——将社会学理论转化为系统的红队测试方法
自然分布偏移 vs 恶意分布偏移的概念区分揭示了安全对齐的根本局限
用 LLM 自身知识攻击 LLM 自身的递归特性值得深思

局限性 / 可改进方向¶

攻击方法可能被滥用
行动者网络构建依赖 LLM 自身，如果 LLM 安全训练更好可能无法构建
改进方向：更全面的安全训练数据覆盖、语义距离感知的安全机制

评分¶

新颖性: ⭐⭐⭐⭐⭐ 行动者网络理论+自然分布偏移的创新结合
实验充分度: ⭐⭐⭐⭐⭐ 多模型+多攻击对比+防御实验
写作质量: ⭐⭐⭐⭐⭐ 理论基础扎实
价值: ⭐⭐⭐⭐⭐ 对 AI 安全研究有重大启示