跳转至

Speculative Actions: A Lossless Framework for Faster AI Agents

会议: ICLR 2026 Oral
OpenReview: P0GOk5wslg
代码: 无
领域: LLM Agent / 系统优化
关键词: speculative execution, AI agents, latency reduction, lossless acceleration, MDP

一句话总结

借鉴 CPU 推测执行和 LLM 推测解码的思想,提出 Speculative Actions 框架:在慢速 Actor(大模型)计算时用快速 Speculator(小模型)预测未来动作并预执行,匹配时跳过等待实现无损加速,在 Chess/电商/问答等场景实现 15-30% 延迟降低,置信度动态分支策略用 40% 更少 token 达到近似 3 条推测的加速效果。

研究背景与动机

  1. 领域现状:AI Agent 在环境中交互时遵循严格的串行模式:Agent 生成动作 → 环境响应 → Agent 生成下一步动作。使用大模型(如 GPT-5, Gemini-2.5-Pro)作为 Agent 时,每次 API 调用的延迟构成瓶颈。

  2. 现有痛点:(a) 推测解码仅加速 token 生成,不解决 Agent-环境交互延迟;(b) 现有 Agent 加速方法大多牺牲精度(如用小模型替代大模型);(c) 没有理论框架分析 Agent 并行推测的成本-延迟权衡。

  3. 核心矛盾:大模型 Agent 精度高但慢,小模型快但不够准。能否两全——保持大模型的精度但获得近似小模型的速度?

  4. 本文要解决什么? 设计一个无损加速框架,利用大小模型的速度差异并行推测动作,在完全保持大模型输出质量的同时降低端到端延迟。

  5. 切入角度:CPU 推测执行的关键洞察——"预测然后验证"不会改变正确性,只影响效率。同样,在 Agent 交互中,预测动作并预执行,匹配就复用、不匹配就丢弃,结果与纯串行执行完全一致。

  6. 核心idea一句话:用快速小模型预测 Agent 动作并预执行环境步骤,预测正确时跳过一轮等待,保证输出轨迹与串行执行完全一致。

方法详解

整体框架

Actor(大模型)和 Speculator(小模型)并行运行。Speculator 先快速预测 \(k\) 个可能的下一步动作并预执行,Actor 慢慢计算出真实动作。若真实动作匹配某个预测动作,直接复用预执行结果,跳过一轮环境交互延迟;否则丢弃预测继续正常执行。

关键设计

  1. 宽度推测(Breadth Speculation)
  2. 做什么:在当前状态 \(s_t\) 同时启动 \(k\) 条推测
  3. 核心思路:Speculator 并行预测 \(k\) 个动作 \(\{\hat{a}_t^{(i)}\}_{i=1}^k\),对每个预测动作预计算下一状态并预发起 Actor 调用。匹配概率 \(p(k) = 1 - (1-p)^k\)\(k\) 越大匹配概率越高但 token 成本越高
  4. 设计动机:宽度推测简单直接,\(k\) 条推测相互独立可完全并行

  5. 深度推测(Depth Speculation)

  6. 做什么:在推测成功后继续推测后续步骤(多步推测链)
  7. 核心思路:成功匹配的推测链可延伸到下一步,形成推测树。理论证明深度推测的计算量被速度比 \(a/b\) 约束,不会随 horizon \(T\) 指数增长
  8. 设计动机:当单步匹配率高时,深度推测可叠加加速效果

  9. 置信度动态分支选择

  10. 做什么:根据 Speculator 的置信度动态决定是否推测
  11. 核心思路:\(\text{Accept speculation at step } t \iff p_t \geq p^\star\),阈值 \(p^\star\) 由 cost ratio 计算得出。证明此策略是理论最优
  12. 设计动机:避免低置信度时浪费 token,\(k=3\) 推测的加速效果用 40% 更少的 token 实现

  13. 无损保证

  14. 做什么:保证最终执行轨迹与纯串行执行完全一致
  15. 核心思路:Actor 只在预计算结果与真实动作精确匹配时才复用缓存结果,否则丢弃。输出序列 identical to sequential execution
  16. 设计动机:保证是实际部署的前提——用户无需担心加速引入错误

理论结果

延迟节省: \(\frac{E[T_{\text{seq}} - T_{\text{spec}}]}{E[T_{\text{seq}}]} \to \frac{p(k)}{1+p(k)} \cdot \frac{b}{a+b}\)

成本增加: \(\frac{E[M_{\text{spec}} - M_{\text{seq}}]}{E[M_{\text{seq}}]} \to \frac{k}{1+p(k)} - \frac{b}{a+b} \cdot \frac{p(k)}{1+p(k)}\)

其中 Actor/Speculator 延迟分别服从 \(\text{Exp}(\beta)\)\(\text{Exp}(\alpha)\)

实验关键数据

主实验

任务 推测数 \(k\) 延迟节省 额外 Token
Chess \(k=1\) 4-8% ~91%
Chess \(k=2\) 11-18% ~155%
Chess \(k=3\) 19-31% ~180%
Chess 置信度动态 16-25% ~88%

消融实验

分析维度 关键发现
下一步预测准确率 跨领域达 55%
置信度动态 vs 固定 \(k\) \(k=1\) 的 token 成本达到 \(k=3\) 的加速
Lossy 模式 (OS Tuning) 延迟降低 93.5%,成本降低 92%
Speculator 选择 同家族小模型(GPT-5-nano for GPT-5)效果最佳

关键发现

  • 跨领域通用:Chess、电商、问答、OS调优四个差异很大的领域都有效
  • 置信度阈值是核心优化:动态分支选择在 token 效率和延迟节省间取得最佳权衡
  • 自托管部署免费推测:使用 idle GPU 做推测几乎无额外成本
  • Lossy 扩展潜力大:当允许有损时(OS Tuning),延迟和成本同时大幅降低

亮点与洞察

  • CPU 推测执行到 AI Agent 的完美类比:CPU 推测执行已有 40+ 年历史,将其移植到 AI Agent 交互场景是非常自然但之前被忽略的方向
  • 无损保证使其可直接部署:作为后端优化对用户完全透明,不需要用户信任推测结果
  • 理论指导最优策略:不仅提出方法,还给出了 \(p^\star\) 的理论最优阈值,避免了超参数搜索

局限性 / 可改进方向

  • 依赖动作空间的可预测性:如果 Agent 动作高度随机或创造性的任务(如开放式写作),预测准确率会很低导致推测浪费
  • 仅适用于可确定性验证的环境:需要能精确判断"预测动作 = 真实动作",对于连续动作空间需要定义匹配阈值
  • 未考虑 Speculator 训练:使用现成的小模型作为 Speculator,未探索专门训练 Speculator 提升匹配率的可能

相关工作与启发

  • vs 推测解码:推测解码加速 token 级生成,Speculative Actions 加速 action 级环境交互,两者可叠加使用
  • 与 LoongRL 的关联:LoongRL 的 plan-retrieve-reason-recheck 模式生成的动作序列可能高度可预测(尤其是 plan 和 retrieve 步骤),天然适合 Speculative Actions 加速

评分

  • 新颖性: ⭐⭐⭐⭐ 类比经典思路到新场景,idea 优雅但不改变基础算法
  • 实验充分度: ⭐⭐⭐⭐ 多任务验证+理论对齐,但缺少更大规模 Agent 任务
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,系统设计清晰
  • 价值: ⭐⭐⭐⭐⭐ 高实用价值,可直接部署加速现有 Agent 系统