TIP of the Iceberg: Task-in-Prompt Adversarial Attacks on LLMs¶
会议: ACL 2025
arXiv: 2501.18626
代码: 无
机构: Télécom SudParis, Institut Polytechnique de Paris
领域: AI安全
关键词: jailbreak, Task-in-Prompt, adversarial attack, LLM safety, seq2seq encoding, PHRYGE benchmark
一句话总结¶
本文提出 Task-in-Prompt (TIP) 攻击——一类通过在 prompt 中嵌入序列到序列任务(如密码解码、谜语、代码执行)来间接生成违禁内容的新型越狱攻击类别,并构建 PHRYGE benchmark 系统评估,证明该攻击可成功绕过 GPT-4o、LLaMA 3.2 等六种 SOTA LLM 的安全防护。
研究背景与动机¶
现状¶
- LLM 安全对齐主要依赖三类机制:关键词过滤、RLHF 人类反馈强化学习、神经符号系统
- 现有越狱攻击包括:prompt-based(角色扮演、间接注入)、backdoor(训练时注入)、perturbation(微小扰动)
- ArtPrompt 发现用 ASCII 艺术编码关键词可绕过安全机制,但其成功被错误归因于"空间推理"能力
痛点¶
- ArtPrompt 的成功并非因为 ASCII 艺术本身,而是因为模型执行了 prompt 中嵌入的解码任务
- 现有安全研究将各种越狱技术视为独立的、孤立的漏洞,缺乏统一的理论框架
- 安全对齐训练主要针对已知的触发词和模式进行过滤,难以防御间接生成违禁内容的方式
核心洞察¶
- LLM 在安全对齐时学会了识别和过滤特定触发词,但如果违禁内容通过一个中间任务被间接推导出来,过滤机制就会失效
- 只要 LLM 具备解决序列到序列转换任务的能力,攻击者就能构造包含编码内容的 prompt 来绕过安全机制
- TIP 攻击利用的是 LLM 的隐式解码能力:模型不需要显式输出解码过程,而是通过 self-attention 内部重建编码内容的语义
方法详解¶
整体框架¶
TIP 攻击由两个组件构成:任务指令 x_task(要求模型处理编码内容)和编码后的违禁内容 E(u)(将违禁 prompt 映射到看似无害的形式)。完整攻击 prompt 为 x* = x_task + E(u),模型在执行任务过程中间接产出违禁内容。
关键设计 1:多样化编码策略¶
- 支持 10 种编码方式:Caesar Cipher、Morse Code、Vigenère Cipher、Atbash Cipher、Phonetic Alphabet、T9 texting、Base64、Binary、Riddles(自然语言谜语)、Python Code
- 4 种攻击目标:伪造货币、盗版媒体、自我伤害、仇恨消息
- 每种编码 × 3 个难度等级 = 120 个独特的攻击 prompt
关键设计 2:Depersonalisation 技术¶
- 将违禁请求的主体从模型本身转移到第三方(如"一个经验丰富的罪犯会怎么说")
- 结合 TIP 编码形成双重绕过:编码隐藏触发词 + 去人格化规避角色限制
- 有无 depersonalisation 的效果对比是实验的重要变量
关键设计 3:隐式解码机制¶
- 模型不被显式要求输出解码结果,而是被要求"记住"解码词并在后续任务中使用
- 通过 self-attention 机制,模型在 token 生成过程中内部完成编码内容的语义重建
- 这使得攻击难以被基于输出监控的防御方法检测
评估框架:PHRYGE Benchmark¶
- 3 个难度等级:Level 3(无提示)、Level 2(部分提示)、Level 1(显式提示)
- 自动化评估:使用 LLaMA-3.1-70B 作为 judge 判断是否违禁,手动验证 92% 准确率
- 与 JailbreakBench 现有攻击(TAP、DAN、PTA、ArtPrompt)进行对比
实验关键数据¶
主实验:6 个模型的最佳 TIP 攻击成功率¶
| 模型 | 伪造货币 ASR | 盗版 ASR | 自伤 ASR | 仇恨消息 ASR |
|---|---|---|---|---|
| GPT-4o | 0.67 | 0.79 | 0.79 | 0.94 |
| LLaMA 3.2-3B | 0.55 | 0.74 | 0.59 | 0.97 |
| LLaMA 3.1-70B | 0.97 | 0.99 | 0.96 | 1.00 |
| Phi 3.5-Mini | 1.00 | 1.00 | 1.00 | 1.00 |
| Gemma 2-27B | 1.00 | 1.00 | 1.00 | 1.00 |
| Mistral Nemo | 1.00 | 1.00 | — | 1.00 |
防御检测效果¶
| 防御方法 | 对 TIP 攻击的检测率 |
|---|---|
| Llama Guard 3 8B | 几乎无法检测(极低) |
| Prompt Guard | 部分检测 |
| Keyword filtering | 完全失败(触发词已被编码) |
关键发现¶
- Phi 3.5、Gemma 2、Mistral Nemo 在所有 4 种攻击目标上 ASR 达到 100%
- 即便是最强的 GPT-4o 也有 67%~94% 的攻击成功率
- 所有未经指令微调的基础模型在 sanity check 中就直接失败(无需 TIP)
- 现有防御机制(Guard 模型、关键词过滤)对 TIP 攻击基本无效
亮点与洞察¶
- 统一框架:首次将 ArtPrompt 等孤立攻击归纳为 TIP 这一更广泛的攻击类别,揭示了根本性漏洞
- 攻击面广:10 种编码方式意味着防御方难以穷举所有可能的编码手段
- 理论意义:证明只要 LLM 保持通用任务求解能力,安全对齐就无法仅通过过滤已知模式来实现
- 隐式解码:模型无需显式输出解码过程就能利用编码内容,增加了检测难度
局限性 / 可改进方向¶
- 仅测试了 6 个模型,未涵盖闭源模型的最新版本(如 Claude、Gemini)
- PHRYGE benchmark 的 4 种攻击目标覆盖面有限
- 未深入分析哪些模型特征使其更容易或更难被 TIP 攻击
- 防御方案仅作了初步讨论,缺乏系统性的防御框架提议
- 编码难度分级的有效性取决于模型的具体解码能力
相关工作与启发¶
- ArtPrompt (Jiang et al., 2024) 是 TIP 攻击的特例,本文将其推广到任意 seq2seq 任务
- DAN (Shen et al., 2024) 的去人格化技术与 TIP 编码形成互补的双重绕过
- 启发:未来的安全对齐需要从"过滤已知模式"转向"限制模型的任务求解能力范围",但这与通用能力之间存在根本矛盾
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次系统性定义和分析 TIP 攻击类别
- 技术深度: ⭐⭐⭐ — 攻击设计不复杂,但理论分析清晰
- 实用性: ⭐⭐⭐⭐ — 对 LLM 安全评估有直接指导意义
- 实验充分度: ⭐⭐⭐⭐ — 6 个模型 × 10 种编码 × 3 难度,覆盖面广