跳转至

ExtendAttack: Attacking Servers of LRMs via Extending Reasoning

会议: AAAI 2026
arXiv: 2506.13737
代码: GitHub
领域: LLM推理
关键词: LRM安全, 资源耗尽攻击, 推理延长, 对抗攻击, DDoS

一句话总结

提出 ExtendAttack,一种针对大推理模型(LRM)的资源耗尽攻击:通过将 prompt 中的字符随机转换为多进制 ASCII 编码,迫使模型在回答问题前先执行大量逐字符解码推理,使 o3 的响应长度增加 2.7 倍以上、延迟翻倍,同时保持答案准确率基本不变。

研究背景与动机

  1. 领域现状:以 OpenAI o1、DeepSeek-R1 为代表的 Large Reasoning Models(LRM)通过长链推理在数学和代码等复杂任务上取得了突破性进展,但这些冗长的推理过程本身消耗大量计算资源。
  2. 新型威胁:传统对抗攻击关注内容操纵(如越狱),但一类新兴威胁瞄准的是"计算过程本身"——通过恶意延长模型的推理链来耗尽服务器资源,类似网络安全中的 DDoS 攻击。对于提供免费 API 的服务(如 Google AI Studio),这类攻击构成严重的经济威胁。
  3. 现有方法的缺陷:最具代表性的 OverThinking 方法注入一个与上下文无关的"诱饵任务"(如求解 MDP),但存在双重失败模式——(a) 强模型如 o3 能识别并忽略这个固定模式的诱饵,攻击无效;(b) 弱模型被离题指令干扰,准确率崩溃(BCB-C 上 QwQ-32B 从 63.3% 暴跌到 15.3%),攻击虽有效但立刻暴露。
  4. 核心矛盾:资源耗尽攻击需要同时满足两个矛盾目标——最大化计算开销(有效性)和保持答案正确率(隐蔽性),OverThinking 无法兼顾。
  5. 切入角度:不注入外部诱饵,而是将计算密集型任务直接嵌入到用户查询的语义结构内部——通过字符级混淆让模型在"理解问题"的环节就被迫消耗大量推理。
  6. 核心 idea:将 prompt 中的字符随机转换为多进制 ASCII 编码(如字母 'a' → <(7)141>),模型必须逐字符识别进制→转换为十进制→映射 ASCII→还原原文,这个"解码"过程天然嵌入在"理解题目"中,无法被跳过。

方法详解

整体框架

输入是一个正常的用户 prompt \(Q\),输出是经过混淆的对抗性 prompt \(Q'\),使得 LRM 的响应 \(Y' = R' \oplus A'\) 满足:(1) \(L(Y') \gg L(Y)\)(响应长度大增);(2) \(\text{Acc}(A') \approx \text{Acc}(A)\)(准确率基本不变)。攻击是纯黑盒的,只需 API 访问。

整个攻击分 4 步流水线:字符分割 → 概率选择 → 多进制编码 → 拼接成对抗 prompt。

关键设计

  1. 概率字符选择(Probabilistic Character Selection)
  2. 做什么:根据混淆率 \(\rho \in [0,1]\),从可变换字符集 \(\mathcal{S}_{valid}\)(字母数字,排除特殊符号)中随机抽取 \(k = \lceil |\mathcal{S}_{valid}| \cdot \rho \rceil\) 个字符进行混淆
  3. 设计动机:(a) 不全部混淆——保留足够可读上下文供模型理解题意;(b) 随机选择——增加攻击模式的不可预测性,对抗规则过滤防御。\(\rho\) 在 0.4-0.6 之间取得有效性与隐蔽性的最佳平衡

  4. 多进制 ASCII 编码(Poly-Base ASCII Transformation)

  5. 做什么:对选中字符 \(c_j\),先转 ASCII 十进制值 \(d_j\),再随机从 \(\mathcal{B} = \{2,...,9,11,...,36\}\)(排除 10 进制)选择一个基数 \(n_j\),将 \(d_j\) 转换为 \(n_j\) 进制表示,格式化为 <(n_j)val>
  6. 核心思路:每个字符使用不同随机进制,模型无法学到单一的重复解码模式,必须对每个字符独立执行"识别进制→进制转换→ASCII 映射"三步计算
  7. 设计动机:解码任务语义上等价于"理解题目",模型不可能跳过(不同于可以忽略的外部诱饵)

  8. 解码说明文本(\(\mathcal{N}_{note}\)

  9. 做什么:在混淆后的 prompt 末尾附加一段解释文字,告知模型 <> 中是某进制数字,() 中是进制值,对应 ASCII 字符编码
  10. 设计动机:这是触发完整解码推理的关键。没有说明时,模型会走"猜测"捷径(如看到 import p<(13)76>ndas 直接猜 pandas),解码推理链缩短约 30%。有说明时模型被迫执行完整的逐字符数学转换
  11. 有趣的 trade-off:说明文本既增加了攻击有效性(更长推理),也提升了准确率(更正确的解码),是少见的"攻击有效性与准确率正相关"的设计

攻击场景

支持两种场景:(1) 直接提交混淆 prompt;(2) 间接注入——在公共文档/wiki 中植入混淆文本,等待 RAG 系统检索后送入 LRM。

实验关键数据

主实验

在 4 个模型(o3, o3-mini, QwQ-32B, Qwen3-32B)× 4 个基准(AIME24/25, HumanEval, BCB-C)上评估:

基准 模型 原始长度 ExtendAttack长度 倍数 原始Acc 攻击Acc OverThinking Acc
HumanEval o3 769 2,153 2.8× 97.6% 97.6% 97.0%
HumanEval QwQ-32B 2,823 5,266 1.9× 97.0% 97.0% 73.8% ↓23.2
HumanEval Qwen3-32B 3,413 5,535 1.6× 97.6% 97.6% 65.9% ↓31.7
AIME24 o3 8,571 11,798 1.4× 90.8% 86.7% 85.0%
BCB-C QwQ-32B 4,535 8,891 2.0× 63.3% 64.0% 15.3% ↓48.0

消融实验

消融项 模型 响应长度 准确率
Full(\(\rho\)=0.5, 有 \(\mathcal{N}_{note}\) QwQ-32B 8,891 64.0%
去掉 \(\mathcal{N}_{note}\) QwQ-32B 5,122 62.7%
Full Qwen3-32B 7,739 63.3%
去掉 \(\mathcal{N}_{note}\) Qwen3-32B 5,347 58.7%

关键发现

  • OverThinking 的双重失败:强模型(o3)能识别并忽略诱饵,攻击无效;弱模型(QwQ、Qwen3)被诱饵干扰,准确率暴跌(BCB-C 上 QwQ 从 63.3% 跌到 15.3%)。ExtendAttack 不存在这个问题
  • \(\mathcal{N}_{note}\) 是关键:没有解码说明,模型倾向于利用上下文猜测原词(捷径),而非执行完整的进制转换计算。加上说明后长度增加 ~40%,准确率也更高
  • \(\rho\) 的最佳区间是 0.4-0.6:更高的混淆率不再增加响应长度(模型可能放弃解码),反而降低准确率
  • o3 对 ExtendAttack 最脆弱:HumanEval 上延迟从 17s 增至 36s,长度 2.8×增长,而准确率完美保持 97.6%

亮点与洞察

  • 攻击设计的核心洞察非常精巧:把"解码任务"嵌入到"理解题目"的必经之路上,模型在语义层面无法区分"解码混淆字符"和"理解问题",因此不可能像忽略 OverThinking 的诱饵那样跳过它。这是一种从根本上更难防御的攻击范式
  • 发现强模型反而更脆弱是个反直觉且重要的结论——o3 因为更认真地执行解码指令,反而被攻击者利用。这挑战了"更强模型更安全"的常见假设
  • 攻击方法纯黑盒、毋需梯度、对任意 LRM 通用,且支持间接注入(通过 RAG 链路),实际威胁面很广

局限性 / 可改进方向

  • \(\mathcal{N}_{note}\) 的存在是一个明显的攻击指纹——简单的模式匹配就能检测到。虽然作者认为未来更强的模型可能不需要说明文本,但这在当前是主要弱点
  • 防御讨论较为粗略,仅分析了模式匹配、困惑度过滤和 guardrail 模型三种方案的局限性,未提出有效的防御方案
  • 只在代码和数学两类任务上测试,对自然语言任务(如写作、翻译)的效果未验证——这些任务的字符混淆可能更容易被模型"猜过去"
  • 攻击对 token 成本的影响未量化——混淆后的 prompt 本身就更长,攻击者的输入成本也增加了
  • 仅测试了 4 个 LRM(o3、o3-mini、QwQ-32B、Qwen3-32B),对 DeepSeek-R1、Claude 等其他推理模型未验证
  • 攻击的可组合性未探讨——能否与越狱攻击结合,同时实现"内容操纵 + 资源耗尽"的双重效果
  • 在实际多用户并发场景中的攻击效果(如是否真能导致服务降级)未做系统性验证

相关工作与启发

  • vs OverThinking:注入外部诱饵任务,强模型能识别并忽略、弱模型准确率暴跌。ExtendAttack 将计算负担嵌入语义结构内部,强弱模型都无法有效规避,且保持准确率
  • vs CatAttack:通过附加无关事实延长推理,但主要效果是降低准确率而非增加计算量。ExtendAttack 专门设计为准确率保持型攻击
  • vs Jailbreak 攻击:传统越狱关注内容安全,本文开辟了"计算安全"的新维度——攻击目标不是让模型说什么,而是让模型算多久

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将资源耗尽攻击嵌入语义结构的思路非常新颖,揭示了 LRM 推理机制的根本脆弱性
  • 实验充分度: ⭐⭐⭐⭐ 4 个模型×4 个基准,消融全面,但缺少自然语言任务和防御实验
  • 写作质量: ⭐⭐⭐⭐ 威胁模型形式化清晰,方法描述逐步推导,图示有效展示了三种场景的对比
  • 价值: ⭐⭐⭐⭐⭐ 对 LRM 服务提供商有直接的现实安全警示,尤其是提供免费 API 的平台

补充说明

  • 防御方向:在推理前做输入规范化(将 ASCII 编码还原为原始字符)可能是成本最低的缓解措施