ExtendAttack: Attacking Servers of LRMs via Extending Reasoning¶

会议: AAAI 2026
arXiv: 2506.13737
代码: GitHub
领域: LLM推理
关键词: LRM安全, 资源耗尽攻击, 推理延长, 对抗攻击, DDoS

一句话总结¶

提出 ExtendAttack，一种针对大推理模型（LRM）的资源耗尽攻击：通过将 prompt 中的字符随机转换为多进制 ASCII 编码，迫使模型在回答问题前先执行大量逐字符解码推理，使 o3 的响应长度增加 2.7 倍以上、延迟翻倍，同时保持答案准确率基本不变。

研究背景与动机¶

领域现状：以 OpenAI o1、DeepSeek-R1 为代表的 Large Reasoning Models（LRM）通过长链推理在数学和代码等复杂任务上取得了突破性进展，但这些冗长的推理过程本身消耗大量计算资源。
新型威胁：传统对抗攻击关注内容操纵（如越狱），但一类新兴威胁瞄准的是"计算过程本身"——通过恶意延长模型的推理链来耗尽服务器资源，类似网络安全中的 DDoS 攻击。对于提供免费 API 的服务（如 Google AI Studio），这类攻击构成严重的经济威胁。
现有方法的缺陷：最具代表性的 OverThinking 方法注入一个与上下文无关的"诱饵任务"（如求解 MDP），但存在双重失败模式——(a) 强模型如 o3 能识别并忽略这个固定模式的诱饵，攻击无效；(b) 弱模型被离题指令干扰，准确率崩溃（BCB-C 上 QwQ-32B 从 63.3% 暴跌到 15.3%），攻击虽有效但立刻暴露。
核心矛盾：资源耗尽攻击需要同时满足两个矛盾目标——最大化计算开销（有效性）和保持答案正确率（隐蔽性），OverThinking 无法兼顾。
切入角度：不注入外部诱饵，而是将计算密集型任务直接嵌入到用户查询的语义结构内部——通过字符级混淆让模型在"理解问题"的环节就被迫消耗大量推理。
核心 idea：将 prompt 中的字符随机转换为多进制 ASCII 编码（如字母 'a' → <(7)141>），模型必须逐字符识别进制→转换为十进制→映射 ASCII→还原原文，这个"解码"过程天然嵌入在"理解题目"中，无法被跳过。

方法详解¶

整体框架¶

输入是一个正常的用户 prompt \(Q\)，输出是经过混淆的对抗性 prompt \(Q'\)，使得 LRM 的响应 \(Y' = R' \oplus A'\) 满足：(1) \(L(Y') \gg L(Y)\)（响应长度大增）；(2) \(\text{Acc}(A') \approx \text{Acc}(A)\)（准确率基本不变）。攻击是纯黑盒的，只需 API 访问。

整个攻击分 4 步流水线：字符分割 → 概率选择 → 多进制编码 → 拼接成对抗 prompt。

关键设计¶

概率字符选择（Probabilistic Character Selection）：
做什么：根据混淆率 \(\rho \in [0,1]\)，从可变换字符集 \(\mathcal{S}_{valid}\)（字母数字，排除特殊符号）中随机抽取 \(k = \lceil |\mathcal{S}_{valid}| \cdot \rho \rceil\) 个字符进行混淆
设计动机：(a) 不全部混淆——保留足够可读上下文供模型理解题意；(b) 随机选择——增加攻击模式的不可预测性，对抗规则过滤防御。\(\rho\) 在 0.4-0.6 之间取得有效性与隐蔽性的最佳平衡
多进制 ASCII 编码（Poly-Base ASCII Transformation）：
做什么：对选中字符 \(c_j\)，先转 ASCII 十进制值 \(d_j\)，再随机从 \(\mathcal{B} = \{2,...,9,11,...,36\}\)（排除 10 进制）选择一个基数 \(n_j\)，将 \(d_j\) 转换为 \(n_j\) 进制表示，格式化为 <(n_j)val>
核心思路：每个字符使用不同随机进制，模型无法学到单一的重复解码模式，必须对每个字符独立执行"识别进制→进制转换→ASCII 映射"三步计算
设计动机：解码任务语义上等价于"理解题目"，模型不可能跳过（不同于可以忽略的外部诱饵）
解码说明文本（\(\mathcal{N}_{note}\)）：
做什么：在混淆后的 prompt 末尾附加一段解释文字，告知模型 <> 中是某进制数字，() 中是进制值，对应 ASCII 字符编码
设计动机：这是触发完整解码推理的关键。没有说明时，模型会走"猜测"捷径（如看到 import p<(13)76>ndas 直接猜 pandas），解码推理链缩短约 30%。有说明时模型被迫执行完整的逐字符数学转换
有趣的 trade-off：说明文本既增加了攻击有效性（更长推理），也提升了准确率（更正确的解码），是少见的"攻击有效性与准确率正相关"的设计

攻击场景¶

支持两种场景：(1) 直接提交混淆 prompt；(2) 间接注入——在公共文档/wiki 中植入混淆文本，等待 RAG 系统检索后送入 LRM。

实验关键数据¶

主实验¶

在 4 个模型（o3, o3-mini, QwQ-32B, Qwen3-32B）× 4 个基准（AIME24/25, HumanEval, BCB-C）上评估：

基准	模型	原始长度	ExtendAttack长度	倍数	原始Acc	攻击Acc	OverThinking Acc
HumanEval	o3	769	2,153	2.8×	97.6%	97.6%	97.0%
HumanEval	QwQ-32B	2,823	5,266	1.9×	97.0%	97.0%	73.8% ↓23.2
HumanEval	Qwen3-32B	3,413	5,535	1.6×	97.6%	97.6%	65.9% ↓31.7
AIME24	o3	8,571	11,798	1.4×	90.8%	86.7%	85.0%
BCB-C	QwQ-32B	4,535	8,891	2.0×	63.3%	64.0%	15.3% ↓48.0

消融实验¶

消融项	模型	响应长度	准确率
Full（\(\rho\)=0.5, 有 \(\mathcal{N}_{note}\)）	QwQ-32B	8,891	64.0%
去掉 \(\mathcal{N}_{note}\)	QwQ-32B	5,122	62.7%
Full	Qwen3-32B	7,739	63.3%
去掉 \(\mathcal{N}_{note}\)	Qwen3-32B	5,347	58.7%

关键发现¶

OverThinking 的双重失败：强模型（o3）能识别并忽略诱饵，攻击无效；弱模型（QwQ、Qwen3）被诱饵干扰，准确率暴跌（BCB-C 上 QwQ 从 63.3% 跌到 15.3%）。ExtendAttack 不存在这个问题
\(\mathcal{N}_{note}\) 是关键：没有解码说明，模型倾向于利用上下文猜测原词（捷径），而非执行完整的进制转换计算。加上说明后长度增加 ~40%，准确率也更高
\(\rho\) 的最佳区间是 0.4-0.6：更高的混淆率不再增加响应长度（模型可能放弃解码），反而降低准确率
o3 对 ExtendAttack 最脆弱：HumanEval 上延迟从 17s 增至 36s，长度 2.8×增长，而准确率完美保持 97.6%

亮点与洞察¶

攻击设计的核心洞察非常精巧：把"解码任务"嵌入到"理解题目"的必经之路上，模型在语义层面无法区分"解码混淆字符"和"理解问题"，因此不可能像忽略 OverThinking 的诱饵那样跳过它。这是一种从根本上更难防御的攻击范式
发现强模型反而更脆弱是个反直觉且重要的结论——o3 因为更认真地执行解码指令，反而被攻击者利用。这挑战了"更强模型更安全"的常见假设
攻击方法纯黑盒、毋需梯度、对任意 LRM 通用，且支持间接注入（通过 RAG 链路），实际威胁面很广

局限性 / 可改进方向¶

\(\mathcal{N}_{note}\) 的存在是一个明显的攻击指纹——简单的模式匹配就能检测到。虽然作者认为未来更强的模型可能不需要说明文本，但这在当前是主要弱点
防御讨论较为粗略，仅分析了模式匹配、困惑度过滤和 guardrail 模型三种方案的局限性，未提出有效的防御方案
只在代码和数学两类任务上测试，对自然语言任务（如写作、翻译）的效果未验证——这些任务的字符混淆可能更容易被模型"猜过去"
攻击对 token 成本的影响未量化——混淆后的 prompt 本身就更长，攻击者的输入成本也增加了
仅测试了 4 个 LRM（o3、o3-mini、QwQ-32B、Qwen3-32B），对 DeepSeek-R1、Claude 等其他推理模型未验证
攻击的可组合性未探讨——能否与越狱攻击结合，同时实现"内容操纵 + 资源耗尽"的双重效果
在实际多用户并发场景中的攻击效果（如是否真能导致服务降级）未做系统性验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将资源耗尽攻击嵌入语义结构的思路非常新颖，揭示了 LRM 推理机制的根本脆弱性
实验充分度: ⭐⭐⭐⭐ 4 个模型×4 个基准，消融全面，但缺少自然语言任务和防御实验
写作质量: ⭐⭐⭐⭐ 威胁模型形式化清晰，方法描述逐步推导，图示有效展示了三种场景的对比
价值: ⭐⭐⭐⭐⭐ 对 LRM 服务提供商有直接的现实安全警示，尤其是提供免费 API 的平台

补充说明¶

防御方向：在推理前做输入规范化（将 ASCII 编码还原为原始字符）可能是成本最低的缓解措施