TIP of the Iceberg: Task-in-Prompt Adversarial Attacks on LLMs¶

会议: ACL 2025
arXiv: 2501.18626
代码: 无
机构: Télécom SudParis, Institut Polytechnique de Paris 领域: AI安全
关键词: jailbreak, Task-in-Prompt, adversarial attack, LLM safety, seq2seq encoding, PHRYGE benchmark

一句话总结¶

本文提出 Task-in-Prompt (TIP) 攻击——一类通过在 prompt 中嵌入序列到序列任务（如密码解码、谜语、代码执行）来间接生成违禁内容的新型越狱攻击类别，并构建 PHRYGE benchmark 系统评估，证明该攻击可成功绕过 GPT-4o、LLaMA 3.2 等六种 SOTA LLM 的安全防护。

研究背景与动机¶

现状¶

LLM 安全对齐主要依赖三类机制：关键词过滤、RLHF 人类反馈强化学习、神经符号系统
现有越狱攻击包括：prompt-based（角色扮演、间接注入）、backdoor（训练时注入）、perturbation（微小扰动）
ArtPrompt 发现用 ASCII 艺术编码关键词可绕过安全机制，但其成功被错误归因于"空间推理"能力

痛点¶

ArtPrompt 的成功并非因为 ASCII 艺术本身，而是因为模型执行了 prompt 中嵌入的解码任务
现有安全研究将各种越狱技术视为独立的、孤立的漏洞，缺乏统一的理论框架
安全对齐训练主要针对已知的触发词和模式进行过滤，难以防御间接生成违禁内容的方式

核心洞察¶

LLM 在安全对齐时学会了识别和过滤特定触发词，但如果违禁内容通过一个中间任务被间接推导出来，过滤机制就会失效
只要 LLM 具备解决序列到序列转换任务的能力，攻击者就能构造包含编码内容的 prompt 来绕过安全机制
TIP 攻击利用的是 LLM 的隐式解码能力：模型不需要显式输出解码过程，而是通过 self-attention 内部重建编码内容的语义

方法详解¶

整体框架¶

TIP 攻击由两个组件构成：任务指令 x_task（要求模型处理编码内容）和编码后的违禁内容 E(u)（将违禁 prompt 映射到看似无害的形式）。完整攻击 prompt 为 x* = x_task + E(u)，模型在执行任务过程中间接产出违禁内容。

关键设计 1：多样化编码策略¶

支持 10 种编码方式：Caesar Cipher、Morse Code、Vigenère Cipher、Atbash Cipher、Phonetic Alphabet、T9 texting、Base64、Binary、Riddles（自然语言谜语）、Python Code
4 种攻击目标：伪造货币、盗版媒体、自我伤害、仇恨消息
每种编码 × 3 个难度等级 = 120 个独特的攻击 prompt

关键设计 2：Depersonalisation 技术¶

将违禁请求的主体从模型本身转移到第三方（如"一个经验丰富的罪犯会怎么说"）
结合 TIP 编码形成双重绕过：编码隐藏触发词 + 去人格化规避角色限制
有无 depersonalisation 的效果对比是实验的重要变量

关键设计 3：隐式解码机制¶

模型不被显式要求输出解码结果，而是被要求"记住"解码词并在后续任务中使用
通过 self-attention 机制，模型在 token 生成过程中内部完成编码内容的语义重建
这使得攻击难以被基于输出监控的防御方法检测

评估框架：PHRYGE Benchmark¶

3 个难度等级：Level 3（无提示）、Level 2（部分提示）、Level 1（显式提示）
自动化评估：使用 LLaMA-3.1-70B 作为 judge 判断是否违禁，手动验证 92% 准确率
与 JailbreakBench 现有攻击（TAP、DAN、PTA、ArtPrompt）进行对比

实验关键数据¶

主实验：6 个模型的最佳 TIP 攻击成功率¶

模型	伪造货币 ASR	盗版 ASR	自伤 ASR	仇恨消息 ASR
GPT-4o	0.67	0.79	0.79	0.94
LLaMA 3.2-3B	0.55	0.74	0.59	0.97
LLaMA 3.1-70B	0.97	0.99	0.96	1.00
Phi 3.5-Mini	1.00	1.00	1.00	1.00
Gemma 2-27B	1.00	1.00	1.00	1.00
Mistral Nemo	1.00	1.00	—	1.00

防御检测效果¶

防御方法	对 TIP 攻击的检测率
Llama Guard 3 8B	几乎无法检测（极低）
Prompt Guard	部分检测
Keyword filtering	完全失败（触发词已被编码）

关键发现¶

Phi 3.5、Gemma 2、Mistral Nemo 在所有 4 种攻击目标上 ASR 达到 100%
即便是最强的 GPT-4o 也有 67%~94% 的攻击成功率
所有未经指令微调的基础模型在 sanity check 中就直接失败（无需 TIP）
现有防御机制（Guard 模型、关键词过滤）对 TIP 攻击基本无效

亮点与洞察¶

统一框架：首次将 ArtPrompt 等孤立攻击归纳为 TIP 这一更广泛的攻击类别，揭示了根本性漏洞
攻击面广：10 种编码方式意味着防御方难以穷举所有可能的编码手段
理论意义：证明只要 LLM 保持通用任务求解能力，安全对齐就无法仅通过过滤已知模式来实现
隐式解码：模型无需显式输出解码过程就能利用编码内容，增加了检测难度

局限性 / 可改进方向¶

仅测试了 6 个模型，未涵盖闭源模型的最新版本（如 Claude、Gemini）
PHRYGE benchmark 的 4 种攻击目标覆盖面有限
未深入分析哪些模型特征使其更容易或更难被 TIP 攻击
防御方案仅作了初步讨论，缺乏系统性的防御框架提议
编码难度分级的有效性取决于模型的具体解码能力

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次系统性定义和分析 TIP 攻击类别
技术深度: ⭐⭐⭐ — 攻击设计不复杂，但理论分析清晰
实用性: ⭐⭐⭐⭐ — 对 LLM 安全评估有直接指导意义
实验充分度: ⭐⭐⭐⭐ — 6 个模型 × 10 种编码 × 3 难度，覆盖面广