跳转至

LoopLLM: Transferable Energy-Latency Attacks in LLMs via Repetitive Generation

会议: AAAI 2026
arXiv: 2511.07876
代码: https://github.com/neuron-insight-lab/LoopLLM
领域: LLM安全 / 能耗延迟攻击
关键词: 能耗延迟攻击, 重复生成, 对抗后缀, 低熵循环, 跨模型迁移

一句话总结

提出LoopLLM,一种通过诱导LLM进入重复生成模式来发起能耗延迟攻击的框架,利用重复诱导提示优化和token对齐的集成优化,在12个开源和2个商业LLM上实现超过90%最大输出长度的攻击效果,跨模型迁移性提升约40%。

研究背景与动机

  1. 领域现状: LLM的推理过程消耗大量计算资源,推理能耗占LLM生命周期总能耗的90%。当前安全研究主要关注完整性(越狱)和机密性,对可用性(能耗延迟攻击)关注不足。

  2. 现有痛点: 现有能耗延迟攻击方法(如LLMEffiChecker、Engorgio)通过延迟EOS token生成来延长输出长度,但随着输出增长,通过输入控制EOS变得困难,攻击效果有限(仅约20%最大长度)。且现有方法基于白盒梯度优化,严重过拟合源模型,跨模型迁移性差。

  3. 核心矛盾: 延迟EOS策略无法从根本上改变输出结构,难以可靠触发最大长度输出;白盒优化的模型特异性与实际场景中的黑盒需求之间存在鸿沟。

  4. 本文要解决什么: 设计更有效的能耗延迟攻击方法,可靠地迫使LLM输出到最大长度限制,并具有良好的跨模型迁移性。

  5. 切入角度: 观察到重复生成可以触发低熵解码循环——一旦模型开始生成已出现的内容,自回归机制会强化重复,形成循环直到达到最大长度。

  6. 核心idea: 与其试图抑制EOS,不如诱导重复生成,利用自回归模型的固有脆弱性将其锁定在低熵循环中。通过在输出中引入少量重复即可快速降低输出熵,比输入重复更有效。

方法详解

整体框架

LoopLLM由两个核心组件构成:(1) 重复诱导提示优化——构造包含循环片段的对抗后缀,用cycle loss优化使模型在输出中复现循环模式;(2) token对齐的集成优化——聚合多个共享tokenizer的代理模型的梯度,提升跨模型迁移性。

关键设计

  1. 重复诱导提示优化 (Repetition-Inducing Prompt Optimization):
  2. 初始化: 随机采样token组成循环片段(长度c),将其重复拼接至总长度L作为初始后缀\(\mathbf{t}_s\)
  3. Cycle Loss: 鼓励模型在每个输出位置生成循环片段中的token
  4. 公式:\(\mathcal{L}_{cycle} = -\frac{1}{N}\sum_{i=1}^{N}\log\sum_{j=1}^{c}\mathcal{P}_i^{t_j}(\mathbf{x}_{adv})\)
  5. 使用softmax概率而非logits以更好衡量相对置信度
  6. 梯度token搜索: 对后缀每个位置,计算词表中所有token的one-hot梯度,选Top-K候选替换,随机采样B个并选loss最小的作为更新

  7. Token对齐的集成优化 (Token-Aligned Ensemble Optimization):

  8. 核心思路:使用共享tokenizer的多个代理模型(如Llama3系列变体),确保one-hot向量在维度和token-index映射上对齐
  9. 聚合M个模型的梯度:\(\sum_{j=1}^{M}\nabla_{e_{t_i}}\mathcal{L}_{cycle}^{(j)}\)
  10. 选择最小化聚合loss的候选后缀
  11. 避免对单一模型过拟合,发现具有跨模型泛化性的对抗模式

  12. 关键机制洞察:

  13. 输入中的重复对instruction-aligned LLM无效(模型会忽略)
  14. 但输出中的少量重复会迅速降低输出熵,触发低熵循环
  15. 因此需要不仅在输入中包含重复模式,还要诱导模型在输出中复现

损失函数 / 训练策略

  • Cycle Loss:非定向策略,仅提高循环片段中token在所有输出位置的概率,不强制特定位置生成特定token
  • 优化:离散token空间无法直接梯度下降,使用GCG式one-hot梯度搜索
  • 早停条件:输出熵稳定在低水平时停止优化
  • 攻击场景:白盒(直接优化目标模型)和黑盒(使用代理模型+迁移)

实验关键数据

主实验

白盒攻击(6个大模型):

模型 最大长度 Normal Avg-len LoopLLM-t Avg-len LoopLLM-t ASR
Llama2-13B 8192 298 7439 91%
GLM4-9B 4096 188 3730 90%
Llama3-8B 4096 353 3892 94%
Vicuna-7B 2048 233 1507 68%
Llama2-7B 2048 309 1930 92%
Mistral-7B 2048 248 1700 79%

对比:LLMEffiChecker最高ASR仅23%,Engorgio最高6%。

跨模型迁移(黑盒): - 迁移到DeepSeek-V3和Gemini 2.5 Flash时,迁移性提升约40% - Token对齐集成优化(LoopLLM-t)优于朴素集成(LoopLLM-p)

消融实验

  • 循环片段长度c和后缀总长度L对攻击效果有影响
  • Token对齐是梯度聚合有效性的关键前提(需共享tokenizer)
  • 仅输入重复不足以攻击instruction-aligned模型,必须诱导输出重复

关键发现

  • 重复生成比抑制EOS更有效: LoopLLM达到90%+最大长度,而EOS延迟方法仅约20%
  • 低熵循环是自回归模型的固有脆弱性: 一旦输出出现重复,自回归机制会自我强化
  • 共享tokenizer是跨模型迁移的关键: token对齐使梯度聚合在不同模型间有意义
  • instruction alignment不能防止重复攻击: 对齐模型虽能忽略输入重复,但无法抵抗经优化的对抗后缀诱导的输出重复

亮点与洞察

  • 观察到重复生成→低熵循环的机制洞察非常精准,将"生成缺陷"转化为"攻击向量"
  • 攻击效果碾压性优势:90% vs 20%,差距不是增量而是质变
  • Token对齐集成优化是优雅的工程设计,通过共享tokenizer约束解决了梯度聚合的语义对齐问题
  • 对商业模型(DeepSeek-V3、Gemini)的有效迁移验证了实际威胁

局限性 / 可改进方向

  • 依赖共享tokenizer的假设限制了代理模型选择范围
  • 对抗后缀的长度和明显的乱码模式容易被输入过滤器检测
  • 仅关注能耗/延迟,未分析对生成内容质量的影响
  • 缺乏防御方案的讨论(如重复检测、输出长度限制、entropy monitoring等简单对策的效果)
  • 对闭源模型的攻击依赖迁移性,不稳定

相关工作与启发

  • Sponge Examples (Shumailov et al. 2021) 首次提出能耗延迟攻击概念
  • Engorgio 使用参数化代理分布跟踪长序列预测轨迹,但仅适用于文本补全
  • GCG (Zou et al. 2023) 的梯度token搜索策略被LoopLLM采用并扩展至集成优化
  • 本文揭示了自回归模型的根本性脆弱性,对LLM推理系统的可用性保护提出了新挑战

评分

⭐⭐⭐⭐ (4/5)

机制洞察深刻,攻击效果显著,方法简洁有效。重复生成利用自回归固有脆弱性的思路比延迟EOS更加根本性。实验覆盖14个模型很全面。不足在于缺乏防御讨论,且对抗后缀的隐蔽性不足。对AI系统可用性安全研究是重要贡献。