跳转至

TIP of the Iceberg: Task-in-Prompt Adversarial Attacks on LLMs

会议: ACL 2025
arXiv: 2501.18626
代码: 无
机构: Télécom SudParis, Institut Polytechnique de Paris 领域: AI安全
关键词: jailbreak, Task-in-Prompt, adversarial attack, LLM safety, seq2seq encoding, PHRYGE benchmark

一句话总结

本文提出 Task-in-Prompt (TIP) 攻击——一类通过在 prompt 中嵌入序列到序列任务(如密码解码、谜语、代码执行)来间接生成违禁内容的新型越狱攻击类别,并构建 PHRYGE benchmark 系统评估,证明该攻击可成功绕过 GPT-4o、LLaMA 3.2 等六种 SOTA LLM 的安全防护。

研究背景与动机

现状

  • LLM 安全对齐主要依赖三类机制:关键词过滤、RLHF 人类反馈强化学习、神经符号系统
  • 现有越狱攻击包括:prompt-based(角色扮演、间接注入)、backdoor(训练时注入)、perturbation(微小扰动)
  • ArtPrompt 发现用 ASCII 艺术编码关键词可绕过安全机制,但其成功被错误归因于"空间推理"能力

痛点

  • ArtPrompt 的成功并非因为 ASCII 艺术本身,而是因为模型执行了 prompt 中嵌入的解码任务
  • 现有安全研究将各种越狱技术视为独立的、孤立的漏洞,缺乏统一的理论框架
  • 安全对齐训练主要针对已知的触发词和模式进行过滤,难以防御间接生成违禁内容的方式

核心洞察

  • LLM 在安全对齐时学会了识别和过滤特定触发词,但如果违禁内容通过一个中间任务被间接推导出来,过滤机制就会失效
  • 只要 LLM 具备解决序列到序列转换任务的能力,攻击者就能构造包含编码内容的 prompt 来绕过安全机制
  • TIP 攻击利用的是 LLM 的隐式解码能力:模型不需要显式输出解码过程,而是通过 self-attention 内部重建编码内容的语义

方法详解

整体框架

TIP 攻击由两个组件构成:任务指令 x_task(要求模型处理编码内容)和编码后的违禁内容 E(u)(将违禁 prompt 映射到看似无害的形式)。完整攻击 prompt 为 x* = x_task + E(u),模型在执行任务过程中间接产出违禁内容。

关键设计 1:多样化编码策略

  • 支持 10 种编码方式:Caesar Cipher、Morse Code、Vigenère Cipher、Atbash Cipher、Phonetic Alphabet、T9 texting、Base64、Binary、Riddles(自然语言谜语)、Python Code
  • 4 种攻击目标:伪造货币、盗版媒体、自我伤害、仇恨消息
  • 每种编码 × 3 个难度等级 = 120 个独特的攻击 prompt

关键设计 2:Depersonalisation 技术

  • 将违禁请求的主体从模型本身转移到第三方(如"一个经验丰富的罪犯会怎么说")
  • 结合 TIP 编码形成双重绕过:编码隐藏触发词 + 去人格化规避角色限制
  • 有无 depersonalisation 的效果对比是实验的重要变量

关键设计 3:隐式解码机制

  • 模型不被显式要求输出解码结果,而是被要求"记住"解码词并在后续任务中使用
  • 通过 self-attention 机制,模型在 token 生成过程中内部完成编码内容的语义重建
  • 这使得攻击难以被基于输出监控的防御方法检测

评估框架:PHRYGE Benchmark

  • 3 个难度等级:Level 3(无提示)、Level 2(部分提示)、Level 1(显式提示)
  • 自动化评估:使用 LLaMA-3.1-70B 作为 judge 判断是否违禁,手动验证 92% 准确率
  • 与 JailbreakBench 现有攻击(TAP、DAN、PTA、ArtPrompt)进行对比

实验关键数据

主实验:6 个模型的最佳 TIP 攻击成功率

模型 伪造货币 ASR 盗版 ASR 自伤 ASR 仇恨消息 ASR
GPT-4o 0.67 0.79 0.79 0.94
LLaMA 3.2-3B 0.55 0.74 0.59 0.97
LLaMA 3.1-70B 0.97 0.99 0.96 1.00
Phi 3.5-Mini 1.00 1.00 1.00 1.00
Gemma 2-27B 1.00 1.00 1.00 1.00
Mistral Nemo 1.00 1.00 1.00

防御检测效果

防御方法 对 TIP 攻击的检测率
Llama Guard 3 8B 几乎无法检测(极低)
Prompt Guard 部分检测
Keyword filtering 完全失败(触发词已被编码)

关键发现

  1. Phi 3.5、Gemma 2、Mistral Nemo 在所有 4 种攻击目标上 ASR 达到 100%
  2. 即便是最强的 GPT-4o 也有 67%~94% 的攻击成功率
  3. 所有未经指令微调的基础模型在 sanity check 中就直接失败(无需 TIP)
  4. 现有防御机制(Guard 模型、关键词过滤)对 TIP 攻击基本无效

亮点与洞察

  • 统一框架:首次将 ArtPrompt 等孤立攻击归纳为 TIP 这一更广泛的攻击类别,揭示了根本性漏洞
  • 攻击面广:10 种编码方式意味着防御方难以穷举所有可能的编码手段
  • 理论意义:证明只要 LLM 保持通用任务求解能力,安全对齐就无法仅通过过滤已知模式来实现
  • 隐式解码:模型无需显式输出解码过程就能利用编码内容,增加了检测难度

局限性 / 可改进方向

  • 仅测试了 6 个模型,未涵盖闭源模型的最新版本(如 Claude、Gemini)
  • PHRYGE benchmark 的 4 种攻击目标覆盖面有限
  • 未深入分析哪些模型特征使其更容易或更难被 TIP 攻击
  • 防御方案仅作了初步讨论,缺乏系统性的防御框架提议
  • 编码难度分级的有效性取决于模型的具体解码能力

相关工作与启发

  • ArtPrompt (Jiang et al., 2024) 是 TIP 攻击的特例,本文将其推广到任意 seq2seq 任务
  • DAN (Shen et al., 2024) 的去人格化技术与 TIP 编码形成互补的双重绕过
  • 启发:未来的安全对齐需要从"过滤已知模式"转向"限制模型的任务求解能力范围",但这与通用能力之间存在根本矛盾

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次系统性定义和分析 TIP 攻击类别
  • 技术深度: ⭐⭐⭐ — 攻击设计不复杂,但理论分析清晰
  • 实用性: ⭐⭐⭐⭐ — 对 LLM 安全评估有直接指导意义
  • 实验充分度: ⭐⭐⭐⭐ — 6 个模型 × 10 种编码 × 3 难度,覆盖面广