跳转至

Anticipatory Planning for Multimodal AI Agents

会议: CVPR 2026
arXiv: 2603.16777
代码: 未开源
领域: reinforcement_learning
关键词: 多模态智能体, 前瞻性规划, 轨迹级强化学习, GUI 交互, 工具使用, GRPO

一句话总结

提出 TraceR1,一个两阶段 RL 框架:第一阶段通过轨迹级奖励优化让智能体学会"向前看几步"的前瞻性规划,第二阶段通过工具执行反馈做 grounded fine-tuning 来提升单步精度,在 7 个 GUI 和工具使用 benchmark 上取得了开源 SOTA。

研究背景与动机

  1. 领域现状:当前多模态智能体在 GUI 交互、工具调用等方面取得了显著进展,但绝大多数系统本质上是反应式(reactive)的——仅基于当前观测决定下一步动作,不考虑长期后果。
  2. 现有痛点:在多步骤任务中,动作的影响往往是延迟且累积的。反应式智能体无法预判后果,导致在长时序任务中逐渐偏离目标,规划连贯性差。
  3. 核心矛盾:现有两条技术路线都有根本性障碍——Model-free RL 依赖稀疏的最终奖励,难以学到长期依赖;Model-based planning 需要构建世界模型,但在视觉丰富的交互环境中极其困难。
  4. 本文要解决什么:如何高效训练多模态智能体,使其具备自适应的前瞻性推理能力,能在复杂长时序任务中保持规划一致性。
  5. 切入角度:不构建显式的世界模型,而是直接在轨迹级别做 RL,让模型学会预测未来若干步的动作序列,然后只执行第一步,类似人类"想几步、走一步"的规划方式。
  6. 核心 idea 一句话:通过两阶段训练——先做轨迹级对齐学全局一致性,再做 grounded RL 学单步可执行性——将前瞻性规划和精确执行统一起来。

方法详解

整体框架

TraceR1 采用 plan-act 循环:给定当前观测,模型预测未来多步轨迹 \(\hat{\tau}_{t:T}\),但仅执行第一步动作,收到环境反馈后重新规划。训练分两个阶段:

  • Stage 1(Anticipatory Trajectory Optimization):轨迹级 RL,用全局对齐奖励鼓励连贯的多步规划
  • Stage 2(Grounded Reinforcement Fine-tuning):步骤级 RL,用冻结工具代理的执行反馈提升单步精度

基座模型为 Qwen3-VL-8B-Thinking,使用 EasyR1 框架训练。

关键设计 1:轨迹级对齐奖励

  • 做什么:给定用户指令、当前观测和交互历史,模型预测未来 \(T\) 步的动作序列,与参考轨迹对齐。
  • 核心思路:设计折扣轨迹奖励 \(R(\hat{\tau}, \tau^*) = \sum_{t=1}^{T} \gamma^{t-1} r_t\),其中 \(r_t = \lambda_{\text{align}} \cdot \text{sim}(\hat{a}_t, a_t^*) - \lambda_{\text{rep}} \cdot \text{rep}(\hat{a}_{1:t})\)。sim 衡量动作对齐度,rep 惩罚重复/循环动作。
  • 设计动机:SFT 在 teacher forcing 下逐 token 优化,忽视全局一致性。轨迹级 RL 能让模型学到跨步骤的依赖关系,避免冗余或不稳定的 rollout。

关键设计 2:重复惩罚与时间折扣

  • 做什么\(\lambda_{\text{rep}}\) 惩罚轨迹中重复出现的动作,\(\gamma\) 作为时间折扣因子让模型更关注近期正确性。
  • 核心思路:防止 reward hacking——没有重复惩罚,规划器会反复点击同一元素或重复调用同一工具来膨胀奖励;\(\gamma < 1\) 防止模型过拟合不确定性极高的远期预测。
  • 设计动机:消融实验证实去掉任一组件都造成显著性能下降(见消融部分)。

关键设计 3:Grounded RL Fine-tuning

  • 做什么:模型输出 \((\hat{a}_t, \hat{g}_t)\),交由冻结的工具代理(如 UI-TARS-7B)执行,执行结果与 ground-truth 比较得到步骤级奖励。
  • 核心思路:GUI 任务用坐标匹配奖励,工具调用任务用答案匹配奖励:\(r_t^G = \mathbb{1}[\text{coord match}]\)\(\mathbb{1}[\text{answer match}]\)
  • 设计动机:Stage 1 的轨迹奖励是抽象的,模型不知道预测的动作是否真正可执行。Stage 2 提供具体执行结果作为纠正信号,弥补"规划理想化"的问题。

关键设计 4:推理时的 Plan-Act 循环

  • 做什么:推理时模型预测多步轨迹,只执行第一步,获得新观测后重新规划。
  • 核心思路:类似 Model Predictive Control (MPC),滚动预测、单步执行、持续修正。
  • 设计动机:多步预测提供了前瞻上下文,但环境随时变化,只执行一步+重新规划兼顾了前瞻性和鲁棒性。

损失函数 / 训练策略

两阶段均采用 GRPO(Group-Relative Policy Optimization) 作为优化目标:

  • Stage 1:\(\nabla_\theta J(\theta) = \mathbb{E}_{\hat{\tau}}[\hat{A}(\hat{\tau}, \tau^*) \nabla_\theta \log \pi_\theta(\hat{\tau} | u, s_t, \tau_{1:t-1})]\),其中 \(\hat{A}\) 是基于轨迹奖励的归一化组相对优势。
  • Stage 2:将轨迹奖励替换为 grounded step reward \(r_t^G\),同样用 GRPO 更新。

训练数据方面,GUI 任务使用 AgentNet、AndroidControl、GUI-Odyssey、Multimodal-Mind2Web、AgentTrek 等轨迹数据集;工具使用任务使用 T3-Agent 的轨迹数据和可执行工具箱。

实验关键数据

主实验:在线 GUI 基准(Table 1 — 成功率 %)

模型 参数量 AndroidWorld OSWorld-Verified
OpenAI CUA-o3 - 52.5 38.1
UI-TARS-2 - 73.3 53.1
Claude 4.5 Sonnet - - 62.9
Agent S2.5 w/ o3 7B w/ - - 56.0
Qwen3-VL-32B-Thinking 32B 61.4 35.6
TraceR1 (Qwen3-VL-32B w/ Ours) 32B w/ 8B 64.8 41.2

要点:TraceR1 将 Qwen3-VL-32B-Thinking 的 OSWorld 成功率从 35.6% 提升到 41.2%(相对提升 15.7%),AndroidWorld 从 61.4% 提升到 64.8%,达到开源模型 SOTA。

工具使用基准(Table 3 — GAIA & GTA)

模型 参数量 GAIA AnsAcc GTA AnsAcc GTA ToolAcc GTA CodeExec
GPT-4o - 33.4 57.1 63.4 95.1
GPT-5 - 59.3 60.9 68.3 98.7
Qwen3-VL-8B 8B 31.5 49.2 56.8 74.2
T3-Agent 7B 16.9 53.8 64.6 84.3
TraceR1 8B 40.2 56.7 65.7 87.4

要点:8B 规模超越 GPT-4o 的 GAIA 表现(40.2 vs 33.4),比同规模 Qwen3-VL-8B 提升 +8.7 AnsAcc。

消融实验

设置 AndroidWorld OSWorld-Verified GTA
完整 TraceR1 (w/ Stage 2) 64.8 41.2 56.7
w/o Stage 2 57.2 36.3 50.2

去掉 Stage 2 平均下降约 6%,说明 grounded 执行反馈对规划稳定性至关重要。

其他消融发现: - 预测步长 \(T\)\(T\) 增加到 ~10 时性能最佳,过大则不确定性累积导致性能下降 - \(\lambda_{\text{rep}} = 0\):去掉重复惩罚后出现 reward hacking(反复点同一元素) - \(\gamma = 1\):去掉时间折扣后模型过拟合远期不确定预测

亮点与洞察

  1. "向前看几步、只走一步"的思路简洁优雅:不需要构建显式世界模型,直接用轨迹级 RL 让模型学会前瞻推理,工程上远比 model-based planning 简单。
  2. 两阶段解耦设计合理:Stage 1 管"看得远"(全局一致性),Stage 2 管"做得准"(执行可行性),分工明确。
  3. 通用性强:同一框架同时适用于 GUI 交互(桌面/移动端)和通用工具调用,7 个 benchmark 全面验证。
  4. 开源 8B 模型超越 GPT-4o:在 GAIA 上 8B 的 TraceR1 超过 GPT-4o,性价比极高。
  5. 重复惩罚和时间折扣的消融做得好:清晰展示了 reward hacking 问题及解决方案。

局限性 / 可改进方向

  1. 短时域更新的局限性:当前方法只能提供局部修正,无法重塑智能体对长期可行性和任务结构的理解。未来可探索多轮或层次化规划机制。
  2. Stage 2 依赖冻结工具代理:工具代理的质量直接影响 grounded reward 的可靠性,如果工具代理本身有误差,修正信号也会有噪声。
  3. 离线训练 vs 在线交互:当前是离线 grounded setup,没有真正的在线环境交互,可能限制了对动态环境变化的适应性。
  4. 预测步长敏感\(T > 10\) 时性能下降,说明方法在超长时序任务上仍有瓶颈。
  5. 没有记忆/状态更新机制:当前框架缺乏跨 episode 的记忆整合,无法从历史失败中学习。

相关工作与启发

对比方法 差异点
GUI-R1 / InfiGUI-R1 同为 R1-style RL 训练,但只做步骤级奖励,缺乏轨迹级全局优化。TraceR1 在 AndroidControl-High 上超出它们 40%+,验证了轨迹级思维的必要性
Agent S2 / GTA1 依赖闭源模型(o3/GPT-5)做规划器,执行端用开源小模型。TraceR1 不依赖闭源规划器,直接训练开源模型的内在规划能力,更加自主
UI-TARS-1.5/2 商业级闭源系统,性能强但不可复现。TraceR1 用 8B 开源模型配合 32B 执行器就接近 UI-TARS-1.5 的水平

评分

  • 新颖性: ⭐⭐⭐⭐ — 轨迹级 RL + grounded fine-tuning 的两阶段设计是对现有 R1-style 方法的重要推进,"预测多步只执行一步"的 MPC 思路在多模态智能体训练中较新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ — 7 个 benchmark 覆盖在线/离线 GUI 和工具使用,消融实验全面(Stage 2、预测步长、重复惩罚、时间折扣),3 次独立运行取均值
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分,公式表达规范,图表丰富;Related Work 分类细致
  • 价值: ⭐⭐⭐⭐ — 提供了一个通用且实用的多模态智能体前瞻规划训练范式,8B 模型超越 GPT-4o 的结果具有很强的实践意义