Speculative Actions: A Lossless Framework for Faster AI Agents¶

会议: ICLR 2026 Oral
OpenReview: P0GOk5wslg
代码: 无
领域: LLM Agent / 系统优化
关键词: speculative execution, AI agents, latency reduction, lossless acceleration, MDP

一句话总结¶

借鉴 CPU 推测执行和 LLM 推测解码的思想，提出 Speculative Actions 框架：在慢速 Actor（大模型）计算时用快速 Speculator（小模型）预测未来动作并预执行，匹配时跳过等待实现无损加速，在 Chess/电商/问答等场景实现 15-30% 延迟降低，置信度动态分支策略用 40% 更少 token 达到近似 3 条推测的加速效果。

研究背景与动机¶

领域现状：AI Agent 在环境中交互时遵循严格的串行模式：Agent 生成动作 → 环境响应 → Agent 生成下一步动作。使用大模型（如 GPT-5, Gemini-2.5-Pro）作为 Agent 时，每次 API 调用的延迟构成瓶颈。
现有痛点：(a) 推测解码仅加速 token 生成，不解决 Agent-环境交互延迟；(b) 现有 Agent 加速方法大多牺牲精度（如用小模型替代大模型）；(c) 没有理论框架分析 Agent 并行推测的成本-延迟权衡。
核心矛盾：大模型 Agent 精度高但慢，小模型快但不够准。能否两全——保持大模型的精度但获得近似小模型的速度？
本文要解决什么？ 设计一个无损加速框架，利用大小模型的速度差异并行推测动作，在完全保持大模型输出质量的同时降低端到端延迟。
切入角度：CPU 推测执行的关键洞察——"预测然后验证"不会改变正确性，只影响效率。同样，在 Agent 交互中，预测动作并预执行，匹配就复用、不匹配就丢弃，结果与纯串行执行完全一致。
核心idea一句话：用快速小模型预测 Agent 动作并预执行环境步骤，预测正确时跳过一轮等待，保证输出轨迹与串行执行完全一致。

方法详解¶

整体框架¶

Actor（大模型）和 Speculator（小模型）并行运行。Speculator 先快速预测 \(k\) 个可能的下一步动作并预执行，Actor 慢慢计算出真实动作。若真实动作匹配某个预测动作，直接复用预执行结果，跳过一轮环境交互延迟；否则丢弃预测继续正常执行。

关键设计¶

宽度推测（Breadth Speculation）
做什么：在当前状态 \(s_t\) 同时启动 \(k\) 条推测
核心思路：Speculator 并行预测 \(k\) 个动作 \(\{\hat{a}_t^{(i)}\}_{i=1}^k\)，对每个预测动作预计算下一状态并预发起 Actor 调用。匹配概率 \(p(k) = 1 - (1-p)^k\)，\(k\) 越大匹配概率越高但 token 成本越高
设计动机：宽度推测简单直接，\(k\) 条推测相互独立可完全并行
深度推测（Depth Speculation）
做什么：在推测成功后继续推测后续步骤（多步推测链）
核心思路：成功匹配的推测链可延伸到下一步，形成推测树。理论证明深度推测的计算量被速度比 \(a/b\) 约束，不会随 horizon \(T\) 指数增长
设计动机：当单步匹配率高时，深度推测可叠加加速效果
置信度动态分支选择
做什么：根据 Speculator 的置信度动态决定是否推测
核心思路：\(\text{Accept speculation at step } t \iff p_t \geq p^\star\)，阈值 \(p^\star\) 由 cost ratio 计算得出。证明此策略是理论最优
设计动机：避免低置信度时浪费 token，\(k=3\) 推测的加速效果用 40% 更少的 token 实现
无损保证
做什么：保证最终执行轨迹与纯串行执行完全一致
核心思路：Actor 只在预计算结果与真实动作精确匹配时才复用缓存结果，否则丢弃。输出序列 identical to sequential execution
设计动机：保证是实际部署的前提——用户无需担心加速引入错误

理论结果¶

延迟节省： \(\frac{E[T_{\text{seq}} - T_{\text{spec}}]}{E[T_{\text{seq}}]} \to \frac{p(k)}{1+p(k)} \cdot \frac{b}{a+b}\)

成本增加： \(\frac{E[M_{\text{spec}} - M_{\text{seq}}]}{E[M_{\text{seq}}]} \to \frac{k}{1+p(k)} - \frac{b}{a+b} \cdot \frac{p(k)}{1+p(k)}\)

其中 Actor/Speculator 延迟分别服从 \(\text{Exp}(\beta)\) 和 \(\text{Exp}(\alpha)\)。

实验关键数据¶

主实验¶

任务	推测数 \(k\)	延迟节省	额外 Token
Chess	\(k=1\)	4-8%	~91%
Chess	\(k=2\)	11-18%	~155%
Chess	\(k=3\)	19-31%	~180%
Chess	置信度动态	16-25%	~88%

消融实验¶

分析维度	关键发现
下一步预测准确率	跨领域达 55%
置信度动态 vs 固定 \(k\)	用 \(k=1\) 的 token 成本达到 \(k=3\) 的加速
Lossy 模式 (OS Tuning)	延迟降低 93.5%，成本降低 92%
Speculator 选择	同家族小模型（GPT-5-nano for GPT-5）效果最佳

关键发现¶

跨领域通用：Chess、电商、问答、OS调优四个差异很大的领域都有效
置信度阈值是核心优化：动态分支选择在 token 效率和延迟节省间取得最佳权衡
自托管部署免费推测：使用 idle GPU 做推测几乎无额外成本
Lossy 扩展潜力大：当允许有损时（OS Tuning），延迟和成本同时大幅降低

亮点与洞察¶

CPU 推测执行到 AI Agent 的完美类比：CPU 推测执行已有 40+ 年历史，将其移植到 AI Agent 交互场景是非常自然但之前被忽略的方向
无损保证使其可直接部署：作为后端优化对用户完全透明，不需要用户信任推测结果
理论指导最优策略：不仅提出方法，还给出了 \(p^\star\) 的理论最优阈值，避免了超参数搜索

局限性 / 可改进方向¶

依赖动作空间的可预测性：如果 Agent 动作高度随机或创造性的任务（如开放式写作），预测准确率会很低导致推测浪费
仅适用于可确定性验证的环境：需要能精确判断"预测动作 = 真实动作"，对于连续动作空间需要定义匹配阈值
未考虑 Speculator 训练：使用现成的小模型作为 Speculator，未探索专门训练 Speculator 提升匹配率的可能

评分¶

新颖性: ⭐⭐⭐⭐ 类比经典思路到新场景，idea 优雅但不改变基础算法
实验充分度: ⭐⭐⭐⭐ 多任务验证+理论对齐，但缺少更大规模 Agent 任务
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，系统设计清晰
价值: ⭐⭐⭐⭐⭐ 高实用价值，可直接部署加速现有 Agent 系统