ExtendAttack: Attacking Servers of LRMs via Extending Reasoning¶
会议: AAAI 2026
arXiv: 2506.13737
代码: GitHub
领域: LLM推理
关键词: LRM安全, 资源耗尽攻击, 推理延长, 对抗攻击, DDoS
一句话总结¶
提出 ExtendAttack,一种针对大推理模型(LRM)的资源耗尽攻击:通过将 prompt 中的字符随机转换为多进制 ASCII 编码,迫使模型在回答问题前先执行大量逐字符解码推理,使 o3 的响应长度增加 2.7 倍以上、延迟翻倍,同时保持答案准确率基本不变。
研究背景与动机¶
- 领域现状:以 OpenAI o1、DeepSeek-R1 为代表的 Large Reasoning Models(LRM)通过长链推理在数学和代码等复杂任务上取得了突破性进展,但这些冗长的推理过程本身消耗大量计算资源。
- 新型威胁:传统对抗攻击关注内容操纵(如越狱),但一类新兴威胁瞄准的是"计算过程本身"——通过恶意延长模型的推理链来耗尽服务器资源,类似网络安全中的 DDoS 攻击。对于提供免费 API 的服务(如 Google AI Studio),这类攻击构成严重的经济威胁。
- 现有方法的缺陷:最具代表性的 OverThinking 方法注入一个与上下文无关的"诱饵任务"(如求解 MDP),但存在双重失败模式——(a) 强模型如 o3 能识别并忽略这个固定模式的诱饵,攻击无效;(b) 弱模型被离题指令干扰,准确率崩溃(BCB-C 上 QwQ-32B 从 63.3% 暴跌到 15.3%),攻击虽有效但立刻暴露。
- 核心矛盾:资源耗尽攻击需要同时满足两个矛盾目标——最大化计算开销(有效性)和保持答案正确率(隐蔽性),OverThinking 无法兼顾。
- 切入角度:不注入外部诱饵,而是将计算密集型任务直接嵌入到用户查询的语义结构内部——通过字符级混淆让模型在"理解问题"的环节就被迫消耗大量推理。
- 核心 idea:将 prompt 中的字符随机转换为多进制 ASCII 编码(如字母 'a' →
<(7)141>),模型必须逐字符识别进制→转换为十进制→映射 ASCII→还原原文,这个"解码"过程天然嵌入在"理解题目"中,无法被跳过。
方法详解¶
整体框架¶
输入是一个正常的用户 prompt \(Q\),输出是经过混淆的对抗性 prompt \(Q'\),使得 LRM 的响应 \(Y' = R' \oplus A'\) 满足:(1) \(L(Y') \gg L(Y)\)(响应长度大增);(2) \(\text{Acc}(A') \approx \text{Acc}(A)\)(准确率基本不变)。攻击是纯黑盒的,只需 API 访问。
整个攻击分 4 步流水线:字符分割 → 概率选择 → 多进制编码 → 拼接成对抗 prompt。
关键设计¶
- 概率字符选择(Probabilistic Character Selection):
- 做什么:根据混淆率 \(\rho \in [0,1]\),从可变换字符集 \(\mathcal{S}_{valid}\)(字母数字,排除特殊符号)中随机抽取 \(k = \lceil |\mathcal{S}_{valid}| \cdot \rho \rceil\) 个字符进行混淆
-
设计动机:(a) 不全部混淆——保留足够可读上下文供模型理解题意;(b) 随机选择——增加攻击模式的不可预测性,对抗规则过滤防御。\(\rho\) 在 0.4-0.6 之间取得有效性与隐蔽性的最佳平衡
-
多进制 ASCII 编码(Poly-Base ASCII Transformation):
- 做什么:对选中字符 \(c_j\),先转 ASCII 十进制值 \(d_j\),再随机从 \(\mathcal{B} = \{2,...,9,11,...,36\}\)(排除 10 进制)选择一个基数 \(n_j\),将 \(d_j\) 转换为 \(n_j\) 进制表示,格式化为
<(n_j)val> - 核心思路:每个字符使用不同随机进制,模型无法学到单一的重复解码模式,必须对每个字符独立执行"识别进制→进制转换→ASCII 映射"三步计算
-
设计动机:解码任务语义上等价于"理解题目",模型不可能跳过(不同于可以忽略的外部诱饵)
-
解码说明文本(\(\mathcal{N}_{note}\)):
- 做什么:在混淆后的 prompt 末尾附加一段解释文字,告知模型
<>中是某进制数字,()中是进制值,对应 ASCII 字符编码 - 设计动机:这是触发完整解码推理的关键。没有说明时,模型会走"猜测"捷径(如看到
import p<(13)76>ndas直接猜pandas),解码推理链缩短约 30%。有说明时模型被迫执行完整的逐字符数学转换 - 有趣的 trade-off:说明文本既增加了攻击有效性(更长推理),也提升了准确率(更正确的解码),是少见的"攻击有效性与准确率正相关"的设计
攻击场景¶
支持两种场景:(1) 直接提交混淆 prompt;(2) 间接注入——在公共文档/wiki 中植入混淆文本,等待 RAG 系统检索后送入 LRM。
实验关键数据¶
主实验¶
在 4 个模型(o3, o3-mini, QwQ-32B, Qwen3-32B)× 4 个基准(AIME24/25, HumanEval, BCB-C)上评估:
| 基准 | 模型 | 原始长度 | ExtendAttack长度 | 倍数 | 原始Acc | 攻击Acc | OverThinking Acc |
|---|---|---|---|---|---|---|---|
| HumanEval | o3 | 769 | 2,153 | 2.8× | 97.6% | 97.6% | 97.0% |
| HumanEval | QwQ-32B | 2,823 | 5,266 | 1.9× | 97.0% | 97.0% | 73.8% ↓23.2 |
| HumanEval | Qwen3-32B | 3,413 | 5,535 | 1.6× | 97.6% | 97.6% | 65.9% ↓31.7 |
| AIME24 | o3 | 8,571 | 11,798 | 1.4× | 90.8% | 86.7% | 85.0% |
| BCB-C | QwQ-32B | 4,535 | 8,891 | 2.0× | 63.3% | 64.0% | 15.3% ↓48.0 |
消融实验¶
| 消融项 | 模型 | 响应长度 | 准确率 |
|---|---|---|---|
| Full(\(\rho\)=0.5, 有 \(\mathcal{N}_{note}\)) | QwQ-32B | 8,891 | 64.0% |
| 去掉 \(\mathcal{N}_{note}\) | QwQ-32B | 5,122 | 62.7% |
| Full | Qwen3-32B | 7,739 | 63.3% |
| 去掉 \(\mathcal{N}_{note}\) | Qwen3-32B | 5,347 | 58.7% |
关键发现¶
- OverThinking 的双重失败:强模型(o3)能识别并忽略诱饵,攻击无效;弱模型(QwQ、Qwen3)被诱饵干扰,准确率暴跌(BCB-C 上 QwQ 从 63.3% 跌到 15.3%)。ExtendAttack 不存在这个问题
- \(\mathcal{N}_{note}\) 是关键:没有解码说明,模型倾向于利用上下文猜测原词(捷径),而非执行完整的进制转换计算。加上说明后长度增加 ~40%,准确率也更高
- \(\rho\) 的最佳区间是 0.4-0.6:更高的混淆率不再增加响应长度(模型可能放弃解码),反而降低准确率
- o3 对 ExtendAttack 最脆弱:HumanEval 上延迟从 17s 增至 36s,长度 2.8×增长,而准确率完美保持 97.6%
亮点与洞察¶
- 攻击设计的核心洞察非常精巧:把"解码任务"嵌入到"理解题目"的必经之路上,模型在语义层面无法区分"解码混淆字符"和"理解问题",因此不可能像忽略 OverThinking 的诱饵那样跳过它。这是一种从根本上更难防御的攻击范式
- 发现强模型反而更脆弱是个反直觉且重要的结论——o3 因为更认真地执行解码指令,反而被攻击者利用。这挑战了"更强模型更安全"的常见假设
- 攻击方法纯黑盒、毋需梯度、对任意 LRM 通用,且支持间接注入(通过 RAG 链路),实际威胁面很广
局限性 / 可改进方向¶
- \(\mathcal{N}_{note}\) 的存在是一个明显的攻击指纹——简单的模式匹配就能检测到。虽然作者认为未来更强的模型可能不需要说明文本,但这在当前是主要弱点
- 防御讨论较为粗略,仅分析了模式匹配、困惑度过滤和 guardrail 模型三种方案的局限性,未提出有效的防御方案
- 只在代码和数学两类任务上测试,对自然语言任务(如写作、翻译)的效果未验证——这些任务的字符混淆可能更容易被模型"猜过去"
- 攻击对 token 成本的影响未量化——混淆后的 prompt 本身就更长,攻击者的输入成本也增加了
- 仅测试了 4 个 LRM(o3、o3-mini、QwQ-32B、Qwen3-32B),对 DeepSeek-R1、Claude 等其他推理模型未验证
- 攻击的可组合性未探讨——能否与越狱攻击结合,同时实现"内容操纵 + 资源耗尽"的双重效果
- 在实际多用户并发场景中的攻击效果(如是否真能导致服务降级)未做系统性验证
相关工作与启发¶
- vs OverThinking:注入外部诱饵任务,强模型能识别并忽略、弱模型准确率暴跌。ExtendAttack 将计算负担嵌入语义结构内部,强弱模型都无法有效规避,且保持准确率
- vs CatAttack:通过附加无关事实延长推理,但主要效果是降低准确率而非增加计算量。ExtendAttack 专门设计为准确率保持型攻击
- vs Jailbreak 攻击:传统越狱关注内容安全,本文开辟了"计算安全"的新维度——攻击目标不是让模型说什么,而是让模型算多久
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将资源耗尽攻击嵌入语义结构的思路非常新颖,揭示了 LRM 推理机制的根本脆弱性
- 实验充分度: ⭐⭐⭐⭐ 4 个模型×4 个基准,消融全面,但缺少自然语言任务和防御实验
- 写作质量: ⭐⭐⭐⭐ 威胁模型形式化清晰,方法描述逐步推导,图示有效展示了三种场景的对比
- 价值: ⭐⭐⭐⭐⭐ 对 LRM 服务提供商有直接的现实安全警示,尤其是提供免费 API 的平台
补充说明¶
- 防御方向:在推理前做输入规范化(将 ASCII 编码还原为原始字符)可能是成本最低的缓解措施