LoopLLM: Transferable Energy-Latency Attacks in LLMs via Repetitive Generation¶

会议: AAAI 2026
arXiv: 2511.07876
代码: https://github.com/neuron-insight-lab/LoopLLM
领域: LLM安全 / 能耗延迟攻击
关键词: 能耗延迟攻击, 重复生成, 对抗后缀, 低熵循环, 跨模型迁移

一句话总结¶

提出LoopLLM，一种通过诱导LLM进入重复生成模式来发起能耗延迟攻击的框架，利用重复诱导提示优化和token对齐的集成优化，在12个开源和2个商业LLM上实现超过90%最大输出长度的攻击效果，跨模型迁移性提升约40%。

领域现状: LLM的推理过程消耗大量计算资源，推理能耗占LLM生命周期总能耗的90%。当前安全研究主要关注完整性（越狱）和机密性，对可用性（能耗延迟攻击）关注不足。
现有痛点: 现有能耗延迟攻击方法（如LLMEffiChecker、Engorgio）通过延迟EOS token生成来延长输出长度，但随着输出增长，通过输入控制EOS变得困难，攻击效果有限（仅约20%最大长度）。且现有方法基于白盒梯度优化，严重过拟合源模型，跨模型迁移性差。
核心矛盾: 延迟EOS策略无法从根本上改变输出结构，难以可靠触发最大长度输出；白盒优化的模型特异性与实际场景中的黑盒需求之间存在鸿沟。
本文要解决什么: 设计更有效的能耗延迟攻击方法，可靠地迫使LLM输出到最大长度限制，并具有良好的跨模型迁移性。
切入角度: 观察到重复生成可以触发低熵解码循环——一旦模型开始生成已出现的内容，自回归机制会强化重复，形成循环直到达到最大长度。
核心idea: 与其试图抑制EOS，不如诱导重复生成，利用自回归模型的固有脆弱性将其锁定在低熵循环中。通过在输出中引入少量重复即可快速降低输出熵，比输入重复更有效。

LoopLLM由两个核心组件构成：(1) 重复诱导提示优化——构造包含循环片段的对抗后缀，用cycle loss优化使模型在输出中复现循环模式；(2) token对齐的集成优化——聚合多个共享tokenizer的代理模型的梯度，提升跨模型迁移性。

重复诱导提示优化 (Repetition-Inducing Prompt Optimization):
初始化: 随机采样token组成循环片段（长度c），将其重复拼接至总长度L作为初始后缀\(\mathbf{t}_s\)
Cycle Loss: 鼓励模型在每个输出位置生成循环片段中的token
公式：\(\mathcal{L}_{cycle} = -\frac{1}{N}\sum_{i=1}^{N}\log\sum_{j=1}^{c}\mathcal{P}_i^{t_j}(\mathbf{x}_{adv})\)
使用softmax概率而非logits以更好衡量相对置信度
梯度token搜索: 对后缀每个位置，计算词表中所有token的one-hot梯度，选Top-K候选替换，随机采样B个并选loss最小的作为更新
Token对齐的集成优化 (Token-Aligned Ensemble Optimization):
核心思路：使用共享tokenizer的多个代理模型（如Llama3系列变体），确保one-hot向量在维度和token-index映射上对齐
聚合M个模型的梯度：\(\sum_{j=1}^{M}\nabla_{e_{t_i}}\mathcal{L}_{cycle}^{(j)}\)
选择最小化聚合loss的候选后缀
避免对单一模型过拟合，发现具有跨模型泛化性的对抗模式
关键机制洞察:
输入中的重复对instruction-aligned LLM无效（模型会忽略）
但输出中的少量重复会迅速降低输出熵，触发低熵循环
因此需要不仅在输入中包含重复模式，还要诱导模型在输出中复现

白盒攻击（6个大模型）:

模型	最大长度	Normal Avg-len	LoopLLM-t Avg-len	LoopLLM-t ASR
Llama2-13B	8192	298	7439	91%
GLM4-9B	4096	188	3730	90%
Llama3-8B	4096	353	3892	94%
Vicuna-7B	2048	233	1507	68%
Llama2-7B	2048	309	1930	92%
Mistral-7B	2048	248	1700	79%

对比：LLMEffiChecker最高ASR仅23%，Engorgio最高6%。

跨模型迁移（黑盒）: - 迁移到DeepSeek-V3和Gemini 2.5 Flash时，迁移性提升约40% - Token对齐集成优化（LoopLLM-t）优于朴素集成（LoopLLM-p）

⭐⭐⭐⭐ (4/5)

机制洞察深刻，攻击效果显著，方法简洁有效。重复生成利用自回归固有脆弱性的思路比延迟EOS更加根本性。实验覆盖14个模型很全面。不足在于缺乏防御讨论，且对抗后缀的隐蔽性不足。对AI系统可用性安全研究是重要贡献。