Efficient Agent Training for Computer Use¶
会议: ICLR 2026
arXiv: 2505.13909
代码: https://github.com/GAIR-NLP/PC-Agent-E
领域: Agent
关键词: computer use agent, trajectory augmentation, data efficiency, GUI agent, SFT
一句话总结¶
PC Agent-E 仅用 312 条人工标注的 Windows 操作轨迹,通过 Trajectory Boost 方法让 Claude 3.7 Sonnet 在每个时间步合成多样化的替代动作决策,训练后的 Qwen2.5-VL-72B 在 WindowsAgentArena-V2 上相对提升 141%,甚至超越教师模型 Claude 3.7 Sonnet 10%。
研究背景与动机¶
-
领域现状:Computer use agent 是当前 AI 的重要方向,目标是让模型像人类一样通过 GUI 操作电脑(点击、输入、导航)。当前主流方案分为模块化多智能体工作流和原生智能体模型两类,后者(如 Claude Computer Use、OpenAI Operator)因灵活性和可优化性成为主流范式。
-
现有痛点:开源模型在 computer use 任务上远落后于闭源系统(Claude 3.7 Sonnet),核心瓶颈在于高质量轨迹数据的极度稀缺。现有数据合成方法要么依赖大规模人工标注,要么通过端到端蒸馏从强模型采样完整轨迹,后者存在错误累积、速度慢(需要在线交互 VM 环境)等问题。
-
核心矛盾:如何用最少的人工标注数据获取最大化的 computer use 能力?直接用人工轨迹训练效果有限(单一路径),直接蒸馏效率低下且质量不稳定(900 小时 vs 3 小时)。
-
本文要解决什么? (a) 极少量人工数据如何高效利用?(b) 如何避免端到端蒸馏的错误累积?(c) 如何让开源模型达到闭源水平?
-
切入角度:受 DeepSeek-R1 等推理模型的数据合成启发,作者观察到 computer use 任务天然存在多条有效路径——同一时间步可以有多种合理的动作选择。因此可以利用人工轨迹作为环境快照,让强模型在每个时间步合成替代动作,而无需在线环境交互。
-
核心 idea 一句话:用人工轨迹的环境快照作为锚点,让前沿模型在每步离线合成多样动作决策来扩增轨迹数据,实现数据高效训练。
方法详解¶
整体框架¶
PC Agent-E 是一个四阶段的高效训练框架:(1) 轨迹收集 — 人工标注 312 条 Windows 操作轨迹;(2) 思维补全 — 为人工动作重建隐式思维过程;(3) Trajectory Boost — 在每个时间步离线合成 9 条替代动作决策;(4) Agent 训练 — 在扩增后的 27K 训练样本上训练 Qwen2.5-VL-72B。输入是截图、任务描述和历史记录,输出是思维+动作对(ReAct 范式)。
关键设计¶
- Trajectory Collection(轨迹收集):
- 做什么:用 PC Tracker 工具录制两名标注者在 Windows 上完成 312 个任务的操作轨迹
- 核心思路:录制包括任务描述、截图序列和人类键盘/鼠标动作。标注者可以丢弃不满意的轨迹或修改任务描述。动作空间 \(\mathcal{A}\) 包含 click、right click、double click、drag、scroll、press key、hotkey、type text、wait、finish、fail 共 11 种操作
-
设计动机:人类完成任务的正确性天然有保障,因此不需要额外验证。两个人一天就能完成标注,成本极低。通过 13-gram overlap < 0 和语义相似度 < 0.85 进行数据去污染
-
Thought Completion(思维补全):
- 做什么:为原始人工轨迹的每一步重建隐式思维过程
- 核心思路:对每个动作步骤,向 Claude 3.7 Sonnet 提供任务描述、历史动作+已重建的思维过程、当前动作和对应截图,让其生成该动作背后的思维过程。这是迭代进行的——后续步骤的上下文包含前序步骤已重建的思维
-
设计动机:原始人工轨迹只有动作没有思维,但训练 ReAct 范式的 agent 需要 thought-action 对。补全思维后轨迹更完整,也为下一步的 Trajectory Boost 提供必要的历史上下文
-
Trajectory Boost(轨迹增强):
- 做什么:为人工轨迹的每个时间步合成 9 条替代动作决策
- 核心思路:每个时间步构成一个环境快照 \(\langle T, o_k, h_k \rangle\)(任务描述、观测截图、历史上下文),将其输入 Claude 3.7 Sonnet 并并行采样 9 个单步动作决策 \((t'_k, a'_k)\)。最终构建一棵 Traj Tree:人工轨迹为主干,合成动作为叶节点
- 设计动机:这是全文最核心的创新。与端到端蒸馏相比,Trajectory Boost 有三大优势:(a) 避免错误累积——因为每步的环境状态由人工轨迹锚定,不会偏离;(b) 离线合成,无需与真实环境交互,可自然并行化,速度快 300 倍(3 小时 vs 900 小时);(c) 充分利用人工轨迹的真实性和前沿模型的多样性
损失函数 / 训练策略¶
- 训练基于 Qwen2.5-VL-72B,使用标准 SFT 损失
- Traj Tree 上的每个动作节点(包括人工和合成的)都转化为独立训练样本
- 训练样本格式与推理时 scaffold 直接对应:输入为截图+任务描述+历史,输出为 thought+action
- 所有合成节点的历史上下文仅包含主干(人工轨迹)的前序步骤,保持一致性
- 312 条轨迹最终产生 27K 训练样本,图像分辨率 1280×720,上下文长度 8192
实验关键数据¶
主实验¶
| 模型 | LibreOffice | Chrome | Edge | System | VS Code | VLC | Utils | Total |
|---|---|---|---|---|---|---|---|---|
| GPT-4o | 0.0 | 5.9 | 0.0 | 8.3 | 0.0 | 0.0 | 0.0 | 2.1 |
| Qwen2.5-VL-72B | 0.0 | 34.7 | 15.4 | 20.8 | 26.3 | 7.6 | 16.7 | 14.9 |
| UI-TARS-72B-DPO | 0.0 | 40.6 | 38.5 | 58.3 | 36.8 | 7.6 | 25.0 | 26.2 |
| Claude 3.7 Sonnet | 2.4 | 46.5 | 61.5 | 54.2 | 52.6 | 29.0 | 16.7 | 32.6 |
| Claude 3.7 (thinking) | 2.4 | 64.1 | 46.2 | 66.7 | 52.6 | 21.9 | 25.0 | 35.4 |
| PC Agent-E | 4.8 | 64.1 | 46.2 | 50.0 | 57.9 | 35.7 | 33.3 | 36.0 |
PC Agent-E 相对 Qwen2.5-VL-72B 提升 141%,超越 Claude 3.7 Sonnet 10%。
消融实验¶
| 方法 | 数据量 | WindowsAgentArena-V2 (%) | 说明 |
|---|---|---|---|
| Base (Qwen2.5-VL-72B) | 0 | 14.9 | 基线 |
| Human only (s=1) | 2.7K | 17.2 | 仅用人工轨迹 |
| Direct Distillation (s=10) | 3120 traj | ~28 | 端到端蒸馏 |
| Trajectory Boost (s=10) | 27K | 36.0 | 本文方法 |
关键发现¶
- Trajectory Boost 远优于单纯人工数据:scaling factor 从 1 增到 10,性能从 17.2 跃升至 36.0,而仅用人工轨迹只能到 17.2
- 远优于直接蒸馏:同等数据规模下,Trajectory Boost 比 Direct Distillation 高出约 8 个百分点,且时间效率高 300 倍(3h vs 900h)
- 跨平台泛化:在 Linux 系统的 OSWorld 上,PC Agent-E 同样获得 34% 相对提升(4.4→10.9%),尽管训练数据全部来自 Windows
- 提升主要来自规划能力:定性分析显示训练后模型产生更长的思维过程,self-correction 和 verification 能力显著增强,但知识和定位(grounding)能力未明显改善
- Infeasible Hacking 现象:弱模型在不可行任务上反而得分更高(Qwen 86.7% vs PC Agent-E 63.3%),说明当前评估存在漏洞
亮点与洞察¶
- 单步离线合成 vs 端到端在线蒸馏:这是一个非常巧妙的 insight——computer use 任务每步天然有多条有效路径,用人工轨迹锚定环境状态、单步合成替代动作,避免了多步蒸馏的错误累积,同时实现 300x 加速
- 极致数据效率:312 条轨迹→27K 样本→超越教师模型,这说明高质量的 diverse supervision 比大规模低质量数据更重要
- WindowsAgentArena-V2 的评估改进:修复了评估依赖、infeasible hacking、VM 状态不稳定等问题,对社区有独立贡献价值
- Traj Tree 结构可迁移:这个思路可用于任何基于环境快照的 sequential decision-making 任务(如 web navigation、mobile GUI、robotics),只要每步有多条有效路径
局限性 / 可改进方向¶
- 训练数据仅 312 条轨迹,覆盖范围有限:主要集中在 Chrome、系统设置等常用应用,LibreOffice 等复杂场景表现仍弱(4.8%)
- 未利用图像历史:推理时只用当前截图,不利用过去截图,作者也承认加入图像历史可能有益
- 知识和 Grounding 瓶颈未解决:主要提升来自规划能力,对于需要特定软件知识的任务(如 VLC 功能)和精确定位的场景改进有限
- 合成动作未在真实环境中验证:Trajectory Boost 的合成动作只是"看起来合理"但未实际执行,可能包含无法成功执行的动作
- 仅做了 SFT 未做 RL:结合 RL(如 GRPO + 环境奖励)可能进一步提升
相关工作与启发¶
- vs UI-TARS: UI-TARS 使用大规模多步轨迹数据训练,PC Agent-E 证明用极少数据+智能增强可以超越大规模数据方案
- vs Direct Distillation: 端到端蒸馏需要在线交互,错误累积,慢 300x;Trajectory Boost 离线、可并行、质量更高
- vs Self-Play/Self-Improvement: 自我提升需要模型本身有较强能力,PC Agent-E 巧妙利用人工轨迹作为基础,避免了冷启动问题
评分¶
- 新颖性: ⭐⭐⭐⭐ Trajectory Boost 思路简洁优雅,但本质是利用人工轨迹+强模型单步合成,概念并不复杂
- 实验充分度: ⭐⭐⭐⭐⭐ 对比了多种基线、消融完整、跨平台泛化、test-time scaling、定性分析一应俱全
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图表精美,motivation 推导流畅
- 价值: ⭐⭐⭐⭐ 对 GUI agent 数据高效训练有重要参考价值,300x 加速和超越教师模型的结果令人印象深刻