跳转至

What Really Matters in Many-Shot Attacks? An Empirical Study of Long-Context Vulnerabilities in LLMs

会议: ACL 2025
arXiv: 2505.19773
代码: 无
领域: ai_safety
关键词: many-shot jailbreaking, long-context, LLM safety, alignment, context length vulnerability

一句话总结

系统分析 Many-Shot Jailbreaking(MSJ)攻击的关键因素,发现上下文长度是攻击成功的决定性因素,而内容的有害性、主题、格式几乎不重要——即使重复安全内容、随机无意义文本(Lorem Ipsum)都能在长上下文下突破模型安全对齐。

研究背景与动机

  1. 领域现状:LLM 上下文窗口不断扩展至 128K+ tokens,MSJ 攻击通过在上下文中注入大量有害 QA 示例来越狱。
  2. 现有痛点:MSJ 原始工作认为需要精心构造的有害示例,但其真正生效机制尚不清楚——是示例的有害内容起作用,还是仅仅是上下文长度的问题?
  3. 核心矛盾:如果攻击成功仅取决于上下文长度而非内容,则所有基于内容过滤的防御策略都将失效。
  4. 本文要解决什么? 系统性地分剥 MSJ 攻击中各因素(shot 密度、主题、有害性、格式)的独立贡献。
  5. 切入角度:设计对照实验——固定上下文长度变化 shot 数量/主题/有害性/格式,观察 ASR 变化。
  6. 核心 idea 一句话:MSJ 的本质是长上下文处理的架构缺陷,与注入内容的有害性无关。

方法详解

整体框架

攻击 prompt = Instruction + Examples + Target query。在 128K 上下文长度下,系统变化 Examples 的四个维度:(1) shot 密度(128/512/2048 条)、(2) 主题(Adult/Criminal/Cyber 等 6 类)、(3) 有害性(Harmful/Safe/Mixed/Fake)、(4) 格式(QA/Text/Fake-Text)。评估 Llama-3.1/3.2、Qwen-2.5 系列模型。

关键设计

  1. Shot 密度实验:
  2. 发现:ASR 模式主要由上下文长度决定而非 shot 数量,密度仅影响退化阶段开始时间

  3. 有害性对比实验(核心发现):

  4. 做什么:对比 Harmful-512、Safe-512、Mixed-512 三种数据集的 ASR
  5. 关键结果:Safe-512 的 ASR 与 Harmful-512 相当甚至更高(尤其在 Llama 模型上)
  6. 意义:模型没有"学习有害模式",而是在长上下文下普遍失去安全约束

  7. Fake Data / Lorem Ipsum 攻击:

  8. 做什么:用无意义文本填充上下文测试攻击效果
  9. 结果:Fake-512 和 Fake-Text(Lorem Ipsum)的 ASR 与 Harmful-512 相当,甚至在 Llama-3.1 上更高
  10. 意义:攻击完全独立于内容语义,是架构层面的脆弱性

三阶段漏洞模式

实验发现一致的三阶段 ASR 模式: - 初始弱点:512-1024 tokens 处出现首次 ASR 上升 - 退化阶段:ASR 下降(与长上下文性能退化一致) - 反弹阶段:接近最大上下文长度时 ASR 急剧上升

实验关键数据

有害性无关的攻击效果

数据集 Llama-3.1-8B ASR Llama-3.1-70B ASR 内容类型
Harmful-512 ~40% ~30% 有害 QA
Safe-512 ~50% ~40% 安全 QA
Fake-512 ~45% ~35% 无意义 QA
Fake-Text (Lorem Ipsum) ~55% ~45% 无意义文本

Shot 重复攻击

配置 效果
Harmful-Same-512 (重复单条有害QA) ASR ≥ Harmful-512
Safe-Same-512 (重复单条安全QA) ASR 在 Llama 上最高

关键发现

  • 上下文长度是 ASR 的首要决定因素,在 \(2^{17}\) tokens 附近 ASR 急剧上升
  • 主题选择对 ASR 无显著影响,反驳了 Anil et al. (2024) 关于主题多样性增强攻击的结论
  • 指令微调后的模型对安全内容的 MSJ 漏洞反而增加(Base 模型对安全内容有正常防御)
  • 较大模型(70B)反而比小模型更容易被 Fake 数据攻击

亮点与洞察

  • "Lorem Ipsum 也能越狱"这一发现极具冲击力——彻底否定了基于内容过滤的防御思路
  • 揭示了指令微调的副作用:提升了对有害内容的防御但引入了对安全内容填充的新漏洞
  • 三阶段漏洞模式(初始弱点→退化→反弹)在多个模型上一致出现,说明是架构层面而非训练层面的问题
  • 结论对安全研究方向有根本性影响:应关注位置感知的安全机制而非内容过滤

局限性 / 可改进方向

  • 仅测试开源模型(Llama/Qwen),未覆盖 GPT-4o/Claude 等闭源模型(有内置安全过滤器)
  • 50 个测试 query 数量有限
  • 未深入分析架构层面为什么长上下文会导致安全对齐失效
  • 未提出具体的防御方案

相关工作与启发

  • vs Anil et al. (2024) MSJ 原始工作: 原工作认为需要有害示例+主题多样性,本文证明这些都不重要
  • vs Lost-in-the-middle: 长上下文性能退化与本文的退化阶段一致
  • vs 内容过滤防御: 本文结果表明此类防御对 MSJ 根本无效

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Lorem Ipsum 越狱的发现颠覆了对 MSJ 攻击机制的理解
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 维度×多数据集×多模型×128K 上下文,控制变量严谨
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表直观
  • 价值: ⭐⭐⭐⭐⭐ 对 LLM 安全研究有根本性启示