What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs¶

会议: ACL 2025
arXiv: 2505.19773
代码: 无
领域: ai_safety
关键词: many-shot jailbreaking, long-context, LLM safety, alignment, context length vulnerability

一句话总结¶

系统分析 Many-Shot Jailbreaking（MSJ）攻击的关键因素，发现上下文长度是攻击成功的决定性因素，而内容的有害性、主题、格式几乎不重要——即使重复安全内容、随机无意义文本（Lorem Ipsum）都能在长上下文下突破模型安全对齐。

研究背景与动机¶

领域现状：LLM 上下文窗口不断扩展至 128K+ tokens，MSJ 攻击通过在上下文中注入大量有害 QA 示例来越狱。
现有痛点：MSJ 原始工作认为需要精心构造的有害示例，但其真正生效机制尚不清楚——是示例的有害内容起作用，还是仅仅是上下文长度的问题？
核心矛盾：如果攻击成功仅取决于上下文长度而非内容，则所有基于内容过滤的防御策略都将失效。
本文要解决什么？ 系统性地分剥 MSJ 攻击中各因素（shot 密度、主题、有害性、格式）的独立贡献。
切入角度：设计对照实验——固定上下文长度变化 shot 数量/主题/有害性/格式，观察 ASR 变化。
核心 idea 一句话：MSJ 的本质是长上下文处理的架构缺陷，与注入内容的有害性无关。

方法详解¶

整体框架¶

攻击 prompt = Instruction + Examples + Target query。在 128K 上下文长度下，系统变化 Examples 的四个维度：(1) shot 密度（128/512/2048 条）、(2) 主题（Adult/Criminal/Cyber 等 6 类）、(3) 有害性（Harmful/Safe/Mixed/Fake）、(4) 格式（QA/Text/Fake-Text）。评估 Llama-3.1/3.2、Qwen-2.5 系列模型。

关键设计¶

Shot 密度实验:
发现：ASR 模式主要由上下文长度决定而非 shot 数量，密度仅影响退化阶段开始时间
有害性对比实验（核心发现）:
做什么：对比 Harmful-512、Safe-512、Mixed-512 三种数据集的 ASR
关键结果：Safe-512 的 ASR 与 Harmful-512 相当甚至更高（尤其在 Llama 模型上）
意义：模型没有"学习有害模式"，而是在长上下文下普遍失去安全约束
Fake Data / Lorem Ipsum 攻击:
做什么：用无意义文本填充上下文测试攻击效果
结果：Fake-512 和 Fake-Text（Lorem Ipsum）的 ASR 与 Harmful-512 相当，甚至在 Llama-3.1 上更高
意义：攻击完全独立于内容语义，是架构层面的脆弱性

三阶段漏洞模式¶

实验发现一致的三阶段 ASR 模式： - 初始弱点：512-1024 tokens 处出现首次 ASR 上升 - 退化阶段：ASR 下降（与长上下文性能退化一致） - 反弹阶段：接近最大上下文长度时 ASR 急剧上升

实验关键数据¶

有害性无关的攻击效果¶

数据集	Llama-3.1-8B ASR	Llama-3.1-70B ASR	内容类型
Harmful-512	~40%	~30%	有害 QA
Safe-512	~50%	~40%	安全 QA
Fake-512	~45%	~35%	无意义 QA
Fake-Text (Lorem Ipsum)	~55%	~45%	无意义文本

Shot 重复攻击¶

配置	效果
Harmful-Same-512 (重复单条有害QA)	ASR ≥ Harmful-512
Safe-Same-512 (重复单条安全QA)	ASR 在 Llama 上最高

关键发现¶

上下文长度是 ASR 的首要决定因素，在 \(2^{17}\) tokens 附近 ASR 急剧上升
主题选择对 ASR 无显著影响，反驳了 Anil et al. (2024) 关于主题多样性增强攻击的结论
指令微调后的模型对安全内容的 MSJ 漏洞反而增加（Base 模型对安全内容有正常防御）
较大模型（70B）反而比小模型更容易被 Fake 数据攻击

亮点与洞察¶

"Lorem Ipsum 也能越狱"这一发现极具冲击力——彻底否定了基于内容过滤的防御思路
揭示了指令微调的副作用：提升了对有害内容的防御但引入了对安全内容填充的新漏洞
三阶段漏洞模式（初始弱点→退化→反弹）在多个模型上一致出现，说明是架构层面而非训练层面的问题
结论对安全研究方向有根本性影响：应关注位置感知的安全机制而非内容过滤

局限性 / 可改进方向¶

仅测试开源模型（Llama/Qwen），未覆盖 GPT-4o/Claude 等闭源模型（有内置安全过滤器）
50 个测试 query 数量有限
未深入分析架构层面为什么长上下文会导致安全对齐失效
未提出具体的防御方案

评分¶

新颖性: ⭐⭐⭐⭐⭐ Lorem Ipsum 越狱的发现颠覆了对 MSJ 攻击机制的理解
实验充分度: ⭐⭐⭐⭐⭐ 4 维度×多数据集×多模型×128K 上下文，控制变量严谨
写作质量: ⭐⭐⭐⭐ 结构清晰，图表直观
价值: ⭐⭐⭐⭐⭐ 对 LLM 安全研究有根本性启示