Anticipatory Planning for Multimodal AI Agents¶

会议: CVPR 2026
arXiv: 2603.16777
代码: 未开源
领域: reinforcement_learning
关键词: 多模态智能体, 前瞻性规划, 轨迹级强化学习, GUI 交互, 工具使用, GRPO

一句话总结¶

提出 TraceR1，一个两阶段 RL 框架：第一阶段通过轨迹级奖励优化让智能体学会"向前看几步"的前瞻性规划，第二阶段通过工具执行反馈做 grounded fine-tuning 来提升单步精度，在 7 个 GUI 和工具使用 benchmark 上取得了开源 SOTA。

研究背景与动机¶

领域现状：当前多模态智能体在 GUI 交互、工具调用等方面取得了显著进展，但绝大多数系统本质上是反应式（reactive）的——仅基于当前观测决定下一步动作，不考虑长期后果。
现有痛点：在多步骤任务中，动作的影响往往是延迟且累积的。反应式智能体无法预判后果，导致在长时序任务中逐渐偏离目标，规划连贯性差。
核心矛盾：现有两条技术路线都有根本性障碍——Model-free RL 依赖稀疏的最终奖励，难以学到长期依赖；Model-based planning 需要构建世界模型，但在视觉丰富的交互环境中极其困难。
本文要解决什么：如何高效训练多模态智能体，使其具备自适应的前瞻性推理能力，能在复杂长时序任务中保持规划一致性。
切入角度：不构建显式的世界模型，而是直接在轨迹级别做 RL，让模型学会预测未来若干步的动作序列，然后只执行第一步，类似人类"想几步、走一步"的规划方式。
核心 idea 一句话：通过两阶段训练——先做轨迹级对齐学全局一致性，再做 grounded RL 学单步可执行性——将前瞻性规划和精确执行统一起来。

方法详解¶

整体框架¶

TraceR1 采用 plan-act 循环：给定当前观测，模型预测未来多步轨迹 \(\hat{\tau}_{t:T}\)，但仅执行第一步动作，收到环境反馈后重新规划。训练分两个阶段：

Stage 1（Anticipatory Trajectory Optimization）：轨迹级 RL，用全局对齐奖励鼓励连贯的多步规划
Stage 2（Grounded Reinforcement Fine-tuning）：步骤级 RL，用冻结工具代理的执行反馈提升单步精度

基座模型为 Qwen3-VL-8B-Thinking，使用 EasyR1 框架训练。

关键设计 1：轨迹级对齐奖励¶

做什么：给定用户指令、当前观测和交互历史，模型预测未来 \(T\) 步的动作序列，与参考轨迹对齐。
核心思路：设计折扣轨迹奖励 \(R(\hat{\tau}, \tau^*) = \sum_{t=1}^{T} \gamma^{t-1} r_t\)，其中 \(r_t = \lambda_{\text{align}} \cdot \text{sim}(\hat{a}_t, a_t^*) - \lambda_{\text{rep}} \cdot \text{rep}(\hat{a}_{1:t})\)。sim 衡量动作对齐度，rep 惩罚重复/循环动作。
设计动机：SFT 在 teacher forcing 下逐 token 优化，忽视全局一致性。轨迹级 RL 能让模型学到跨步骤的依赖关系，避免冗余或不稳定的 rollout。

关键设计 2：重复惩罚与时间折扣¶

做什么：\(\lambda_{\text{rep}}\) 惩罚轨迹中重复出现的动作，\(\gamma\) 作为时间折扣因子让模型更关注近期正确性。
核心思路：防止 reward hacking——没有重复惩罚，规划器会反复点击同一元素或重复调用同一工具来膨胀奖励；\(\gamma < 1\) 防止模型过拟合不确定性极高的远期预测。
设计动机：消融实验证实去掉任一组件都造成显著性能下降（见消融部分）。

关键设计 3：Grounded RL Fine-tuning¶

做什么：模型输出 \((\hat{a}_t, \hat{g}_t)\)，交由冻结的工具代理（如 UI-TARS-7B）执行，执行结果与 ground-truth 比较得到步骤级奖励。
核心思路：GUI 任务用坐标匹配奖励，工具调用任务用答案匹配奖励：\(r_t^G = \mathbb{1}[\text{coord match}]\) 或 \(\mathbb{1}[\text{answer match}]\)。
设计动机：Stage 1 的轨迹奖励是抽象的，模型不知道预测的动作是否真正可执行。Stage 2 提供具体执行结果作为纠正信号，弥补"规划理想化"的问题。

关键设计 4：推理时的 Plan-Act 循环¶

做什么：推理时模型预测多步轨迹，只执行第一步，获得新观测后重新规划。
核心思路：类似 Model Predictive Control (MPC)，滚动预测、单步执行、持续修正。
设计动机：多步预测提供了前瞻上下文，但环境随时变化，只执行一步+重新规划兼顾了前瞻性和鲁棒性。

损失函数 / 训练策略¶

两阶段均采用 GRPO（Group-Relative Policy Optimization） 作为优化目标：

Stage 1：\(\nabla_\theta J(\theta) = \mathbb{E}_{\hat{\tau}}[\hat{A}(\hat{\tau}, \tau^*) \nabla_\theta \log \pi_\theta(\hat{\tau} | u, s_t, \tau_{1:t-1})]\)，其中 \(\hat{A}\) 是基于轨迹奖励的归一化组相对优势。
Stage 2：将轨迹奖励替换为 grounded step reward \(r_t^G\)，同样用 GRPO 更新。

训练数据方面，GUI 任务使用 AgentNet、AndroidControl、GUI-Odyssey、Multimodal-Mind2Web、AgentTrek 等轨迹数据集；工具使用任务使用 T3-Agent 的轨迹数据和可执行工具箱。

实验关键数据¶

主实验：在线 GUI 基准（Table 1 — 成功率 %）¶

模型	参数量	AndroidWorld	OSWorld-Verified
OpenAI CUA-o3	-	52.5	38.1
UI-TARS-2	-	73.3	53.1
Claude 4.5 Sonnet	-	-	62.9
Agent S2.5 w/ o3	7B w/ -	-	56.0
Qwen3-VL-32B-Thinking	32B	61.4	35.6
TraceR1 (Qwen3-VL-32B w/ Ours)	32B w/ 8B	64.8	41.2

要点：TraceR1 将 Qwen3-VL-32B-Thinking 的 OSWorld 成功率从 35.6% 提升到 41.2%（相对提升 15.7%），AndroidWorld 从 61.4% 提升到 64.8%，达到开源模型 SOTA。

工具使用基准（Table 3 — GAIA & GTA）¶

模型	参数量	GAIA AnsAcc	GTA AnsAcc	GTA ToolAcc	GTA CodeExec
GPT-4o	-	33.4	57.1	63.4	95.1
GPT-5	-	59.3	60.9	68.3	98.7
Qwen3-VL-8B	8B	31.5	49.2	56.8	74.2
T3-Agent	7B	16.9	53.8	64.6	84.3
TraceR1	8B	40.2	56.7	65.7	87.4

要点：8B 规模超越 GPT-4o 的 GAIA 表现（40.2 vs 33.4），比同规模 Qwen3-VL-8B 提升 +8.7 AnsAcc。

消融实验¶

设置	AndroidWorld	OSWorld-Verified	GTA
完整 TraceR1 (w/ Stage 2)	64.8	41.2	56.7
w/o Stage 2	57.2	36.3	50.2

去掉 Stage 2 平均下降约 6%，说明 grounded 执行反馈对规划稳定性至关重要。

其他消融发现： - 预测步长 \(T\)：\(T\) 增加到 ~10 时性能最佳，过大则不确定性累积导致性能下降 - \(\lambda_{\text{rep}} = 0\)：去掉重复惩罚后出现 reward hacking（反复点同一元素） - \(\gamma = 1\)：去掉时间折扣后模型过拟合远期不确定预测

亮点与洞察¶

"向前看几步、只走一步"的思路简洁优雅：不需要构建显式世界模型，直接用轨迹级 RL 让模型学会前瞻推理，工程上远比 model-based planning 简单。
两阶段解耦设计合理：Stage 1 管"看得远"（全局一致性），Stage 2 管"做得准"（执行可行性），分工明确。
通用性强：同一框架同时适用于 GUI 交互（桌面/移动端）和通用工具调用，7 个 benchmark 全面验证。
开源 8B 模型超越 GPT-4o：在 GAIA 上 8B 的 TraceR1 超过 GPT-4o，性价比极高。
重复惩罚和时间折扣的消融做得好：清晰展示了 reward hacking 问题及解决方案。

局限性 / 可改进方向¶

短时域更新的局限性：当前方法只能提供局部修正，无法重塑智能体对长期可行性和任务结构的理解。未来可探索多轮或层次化规划机制。
Stage 2 依赖冻结工具代理：工具代理的质量直接影响 grounded reward 的可靠性，如果工具代理本身有误差，修正信号也会有噪声。
离线训练 vs 在线交互：当前是离线 grounded setup，没有真正的在线环境交互，可能限制了对动态环境变化的适应性。
预测步长敏感：\(T > 10\) 时性能下降，说明方法在超长时序任务上仍有瓶颈。
没有记忆/状态更新机制：当前框架缺乏跨 episode 的记忆整合，无法从历史失败中学习。

评分¶

新颖性: ⭐⭐⭐⭐ — 轨迹级 RL + grounded fine-tuning 的两阶段设计是对现有 R1-style 方法的重要推进，"预测多步只执行一步"的 MPC 思路在多模态智能体训练中较新颖
实验充分度: ⭐⭐⭐⭐⭐ — 7 个 benchmark 覆盖在线/离线 GUI 和工具使用，消融实验全面（Stage 2、预测步长、重复惩罚、时间折扣），3 次独立运行取均值
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述充分，公式表达规范，图表丰富；Related Work 分类细致
价值: ⭐⭐⭐⭐ — 提供了一个通用且实用的多模态智能体前瞻规划训练范式，8B 模型超越 GPT-4o 的结果具有很强的实践意义

对比方法	差异点
GUI-R1 / InfiGUI-R1	同为 R1-style RL 训练，但只做步骤级奖励，缺乏轨迹级全局优化。TraceR1 在 AndroidControl-High 上超出它们 40%+，验证了轨迹级思维的必要性
Agent S2 / GTA1	依赖闭源模型（o3/GPT-5）做规划器，执行端用开源小模型。TraceR1 不依赖闭源规划器，直接训练开源模型的内在规划能力，更加自主
UI-TARS-1.5/2	商业级闭源系统，性能强但不可复现。TraceR1 用 8B 开源模型配合 32B 执行器就接近 UI-TARS-1.5 的水平