Speculative Actions: A Lossless Framework for Faster AI Agents¶
会议: ICLR 2026 Oral
OpenReview: P0GOk5wslg
代码: 无
领域: LLM Agent / 系统优化
关键词: speculative execution, AI agents, latency reduction, lossless acceleration, MDP
一句话总结¶
借鉴 CPU 推测执行和 LLM 推测解码的思想,提出 Speculative Actions 框架:在慢速 Actor(大模型)计算时用快速 Speculator(小模型)预测未来动作并预执行,匹配时跳过等待实现无损加速,在 Chess/电商/问答等场景实现 15-30% 延迟降低,置信度动态分支策略用 40% 更少 token 达到近似 3 条推测的加速效果。
研究背景与动机¶
-
领域现状:AI Agent 在环境中交互时遵循严格的串行模式:Agent 生成动作 → 环境响应 → Agent 生成下一步动作。使用大模型(如 GPT-5, Gemini-2.5-Pro)作为 Agent 时,每次 API 调用的延迟构成瓶颈。
-
现有痛点:(a) 推测解码仅加速 token 生成,不解决 Agent-环境交互延迟;(b) 现有 Agent 加速方法大多牺牲精度(如用小模型替代大模型);(c) 没有理论框架分析 Agent 并行推测的成本-延迟权衡。
-
核心矛盾:大模型 Agent 精度高但慢,小模型快但不够准。能否两全——保持大模型的精度但获得近似小模型的速度?
-
本文要解决什么? 设计一个无损加速框架,利用大小模型的速度差异并行推测动作,在完全保持大模型输出质量的同时降低端到端延迟。
-
切入角度:CPU 推测执行的关键洞察——"预测然后验证"不会改变正确性,只影响效率。同样,在 Agent 交互中,预测动作并预执行,匹配就复用、不匹配就丢弃,结果与纯串行执行完全一致。
-
核心idea一句话:用快速小模型预测 Agent 动作并预执行环境步骤,预测正确时跳过一轮等待,保证输出轨迹与串行执行完全一致。
方法详解¶
整体框架¶
Actor(大模型)和 Speculator(小模型)并行运行。Speculator 先快速预测 \(k\) 个可能的下一步动作并预执行,Actor 慢慢计算出真实动作。若真实动作匹配某个预测动作,直接复用预执行结果,跳过一轮环境交互延迟;否则丢弃预测继续正常执行。
关键设计¶
- 宽度推测(Breadth Speculation)
- 做什么:在当前状态 \(s_t\) 同时启动 \(k\) 条推测
- 核心思路:Speculator 并行预测 \(k\) 个动作 \(\{\hat{a}_t^{(i)}\}_{i=1}^k\),对每个预测动作预计算下一状态并预发起 Actor 调用。匹配概率 \(p(k) = 1 - (1-p)^k\),\(k\) 越大匹配概率越高但 token 成本越高
-
设计动机:宽度推测简单直接,\(k\) 条推测相互独立可完全并行
-
深度推测(Depth Speculation)
- 做什么:在推测成功后继续推测后续步骤(多步推测链)
- 核心思路:成功匹配的推测链可延伸到下一步,形成推测树。理论证明深度推测的计算量被速度比 \(a/b\) 约束,不会随 horizon \(T\) 指数增长
-
设计动机:当单步匹配率高时,深度推测可叠加加速效果
-
置信度动态分支选择
- 做什么:根据 Speculator 的置信度动态决定是否推测
- 核心思路:\(\text{Accept speculation at step } t \iff p_t \geq p^\star\),阈值 \(p^\star\) 由 cost ratio 计算得出。证明此策略是理论最优
-
设计动机:避免低置信度时浪费 token,\(k=3\) 推测的加速效果用 40% 更少的 token 实现
-
无损保证
- 做什么:保证最终执行轨迹与纯串行执行完全一致
- 核心思路:Actor 只在预计算结果与真实动作精确匹配时才复用缓存结果,否则丢弃。输出序列 identical to sequential execution
- 设计动机:保证是实际部署的前提——用户无需担心加速引入错误
理论结果¶
延迟节省: \(\frac{E[T_{\text{seq}} - T_{\text{spec}}]}{E[T_{\text{seq}}]} \to \frac{p(k)}{1+p(k)} \cdot \frac{b}{a+b}\)
成本增加: \(\frac{E[M_{\text{spec}} - M_{\text{seq}}]}{E[M_{\text{seq}}]} \to \frac{k}{1+p(k)} - \frac{b}{a+b} \cdot \frac{p(k)}{1+p(k)}\)
其中 Actor/Speculator 延迟分别服从 \(\text{Exp}(\beta)\) 和 \(\text{Exp}(\alpha)\)。
实验关键数据¶
主实验¶
| 任务 | 推测数 \(k\) | 延迟节省 | 额外 Token |
|---|---|---|---|
| Chess | \(k=1\) | 4-8% | ~91% |
| Chess | \(k=2\) | 11-18% | ~155% |
| Chess | \(k=3\) | 19-31% | ~180% |
| Chess | 置信度动态 | 16-25% | ~88% |
消融实验¶
| 分析维度 | 关键发现 |
|---|---|
| 下一步预测准确率 | 跨领域达 55% |
| 置信度动态 vs 固定 \(k\) | 用 \(k=1\) 的 token 成本达到 \(k=3\) 的加速 |
| Lossy 模式 (OS Tuning) | 延迟降低 93.5%,成本降低 92% |
| Speculator 选择 | 同家族小模型(GPT-5-nano for GPT-5)效果最佳 |
关键发现¶
- 跨领域通用:Chess、电商、问答、OS调优四个差异很大的领域都有效
- 置信度阈值是核心优化:动态分支选择在 token 效率和延迟节省间取得最佳权衡
- 自托管部署免费推测:使用 idle GPU 做推测几乎无额外成本
- Lossy 扩展潜力大:当允许有损时(OS Tuning),延迟和成本同时大幅降低
亮点与洞察¶
- CPU 推测执行到 AI Agent 的完美类比:CPU 推测执行已有 40+ 年历史,将其移植到 AI Agent 交互场景是非常自然但之前被忽略的方向
- 无损保证使其可直接部署:作为后端优化对用户完全透明,不需要用户信任推测结果
- 理论指导最优策略:不仅提出方法,还给出了 \(p^\star\) 的理论最优阈值,避免了超参数搜索
局限性 / 可改进方向¶
- 依赖动作空间的可预测性:如果 Agent 动作高度随机或创造性的任务(如开放式写作),预测准确率会很低导致推测浪费
- 仅适用于可确定性验证的环境:需要能精确判断"预测动作 = 真实动作",对于连续动作空间需要定义匹配阈值
- 未考虑 Speculator 训练:使用现成的小模型作为 Speculator,未探索专门训练 Speculator 提升匹配率的可能
相关工作与启发¶
- vs 推测解码:推测解码加速 token 级生成,Speculative Actions 加速 action 级环境交互,两者可叠加使用
- 与 LoongRL 的关联:LoongRL 的 plan-retrieve-reason-recheck 模式生成的动作序列可能高度可预测(尤其是 plan 和 retrieve 步骤),天然适合 Speculative Actions 加速
评分¶
- 新颖性: ⭐⭐⭐⭐ 类比经典思路到新场景,idea 优雅但不改变基础算法
- 实验充分度: ⭐⭐⭐⭐ 多任务验证+理论对齐,但缺少更大规模 Agent 任务
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,系统设计清晰
- 价值: ⭐⭐⭐⭐⭐ 高实用价值,可直接部署加速现有 Agent 系统