Efficient Agent Training for Computer Use¶

会议: ICLR 2026
arXiv: 2505.13909
代码: https://github.com/GAIR-NLP/PC-Agent-E
领域: Agent
关键词: computer use agent, trajectory augmentation, data efficiency, GUI agent, SFT

一句话总结¶

PC Agent-E 仅用 312 条人工标注的 Windows 操作轨迹，通过 Trajectory Boost 方法让 Claude 3.7 Sonnet 在每个时间步合成多样化的替代动作决策，训练后的 Qwen2.5-VL-72B 在 WindowsAgentArena-V2 上相对提升 141%，甚至超越教师模型 Claude 3.7 Sonnet 10%。

研究背景与动机¶

领域现状：Computer use agent 是当前 AI 的重要方向，目标是让模型像人类一样通过 GUI 操作电脑（点击、输入、导航）。当前主流方案分为模块化多智能体工作流和原生智能体模型两类，后者（如 Claude Computer Use、OpenAI Operator）因灵活性和可优化性成为主流范式。
现有痛点：开源模型在 computer use 任务上远落后于闭源系统（Claude 3.7 Sonnet），核心瓶颈在于高质量轨迹数据的极度稀缺。现有数据合成方法要么依赖大规模人工标注，要么通过端到端蒸馏从强模型采样完整轨迹，后者存在错误累积、速度慢（需要在线交互 VM 环境）等问题。
核心矛盾：如何用最少的人工标注数据获取最大化的 computer use 能力？直接用人工轨迹训练效果有限（单一路径），直接蒸馏效率低下且质量不稳定（900 小时 vs 3 小时）。
本文要解决什么？ (a) 极少量人工数据如何高效利用？(b) 如何避免端到端蒸馏的错误累积？(c) 如何让开源模型达到闭源水平？
切入角度：受 DeepSeek-R1 等推理模型的数据合成启发，作者观察到 computer use 任务天然存在多条有效路径——同一时间步可以有多种合理的动作选择。因此可以利用人工轨迹作为环境快照，让强模型在每个时间步合成替代动作，而无需在线环境交互。
核心 idea 一句话：用人工轨迹的环境快照作为锚点，让前沿模型在每步离线合成多样动作决策来扩增轨迹数据，实现数据高效训练。

方法详解¶

整体框架¶

PC Agent-E 是一个四阶段的高效训练框架：(1) 轨迹收集 — 人工标注 312 条 Windows 操作轨迹；(2) 思维补全 — 为人工动作重建隐式思维过程；(3) Trajectory Boost — 在每个时间步离线合成 9 条替代动作决策；(4) Agent 训练 — 在扩增后的 27K 训练样本上训练 Qwen2.5-VL-72B。输入是截图、任务描述和历史记录，输出是思维+动作对（ReAct 范式）。

关键设计¶

Trajectory Collection（轨迹收集）:
做什么：用 PC Tracker 工具录制两名标注者在 Windows 上完成 312 个任务的操作轨迹
核心思路：录制包括任务描述、截图序列和人类键盘/鼠标动作。标注者可以丢弃不满意的轨迹或修改任务描述。动作空间 \(\mathcal{A}\) 包含 click、right click、double click、drag、scroll、press key、hotkey、type text、wait、finish、fail 共 11 种操作
设计动机：人类完成任务的正确性天然有保障，因此不需要额外验证。两个人一天就能完成标注，成本极低。通过 13-gram overlap < 0 和语义相似度 < 0.85 进行数据去污染
Thought Completion（思维补全）:
做什么：为原始人工轨迹的每一步重建隐式思维过程
核心思路：对每个动作步骤，向 Claude 3.7 Sonnet 提供任务描述、历史动作+已重建的思维过程、当前动作和对应截图，让其生成该动作背后的思维过程。这是迭代进行的——后续步骤的上下文包含前序步骤已重建的思维
设计动机：原始人工轨迹只有动作没有思维，但训练 ReAct 范式的 agent 需要 thought-action 对。补全思维后轨迹更完整，也为下一步的 Trajectory Boost 提供必要的历史上下文
Trajectory Boost（轨迹增强）:
做什么：为人工轨迹的每个时间步合成 9 条替代动作决策
核心思路：每个时间步构成一个环境快照 \(\langle T, o_k, h_k \rangle\)（任务描述、观测截图、历史上下文），将其输入 Claude 3.7 Sonnet 并并行采样 9 个单步动作决策 \((t'_k, a'_k)\)。最终构建一棵 Traj Tree：人工轨迹为主干，合成动作为叶节点
设计动机：这是全文最核心的创新。与端到端蒸馏相比，Trajectory Boost 有三大优势：(a) 避免错误累积——因为每步的环境状态由人工轨迹锚定，不会偏离；(b) 离线合成，无需与真实环境交互，可自然并行化，速度快 300 倍（3 小时 vs 900 小时）；(c) 充分利用人工轨迹的真实性和前沿模型的多样性

损失函数 / 训练策略¶

训练基于 Qwen2.5-VL-72B，使用标准 SFT 损失
Traj Tree 上的每个动作节点（包括人工和合成的）都转化为独立训练样本
训练样本格式与推理时 scaffold 直接对应：输入为截图+任务描述+历史，输出为 thought+action
所有合成节点的历史上下文仅包含主干（人工轨迹）的前序步骤，保持一致性
312 条轨迹最终产生 27K 训练样本，图像分辨率 1280×720，上下文长度 8192

实验关键数据¶

主实验¶

模型	LibreOffice	Chrome	Edge	System	VS Code	VLC	Utils	Total
GPT-4o	0.0	5.9	0.0	8.3	0.0	0.0	0.0	2.1
Qwen2.5-VL-72B	0.0	34.7	15.4	20.8	26.3	7.6	16.7	14.9
UI-TARS-72B-DPO	0.0	40.6	38.5	58.3	36.8	7.6	25.0	26.2
Claude 3.7 Sonnet	2.4	46.5	61.5	54.2	52.6	29.0	16.7	32.6
Claude 3.7 (thinking)	2.4	64.1	46.2	66.7	52.6	21.9	25.0	35.4
PC Agent-E	4.8	64.1	46.2	50.0	57.9	35.7	33.3	36.0

PC Agent-E 相对 Qwen2.5-VL-72B 提升 141%，超越 Claude 3.7 Sonnet 10%。

消融实验¶

方法	数据量	WindowsAgentArena-V2 (%)	说明
Base (Qwen2.5-VL-72B)	0	14.9	基线
Human only (s=1)	2.7K	17.2	仅用人工轨迹
Direct Distillation (s=10)	3120 traj	~28	端到端蒸馏
Trajectory Boost (s=10)	27K	36.0	本文方法

关键发现¶

Trajectory Boost 远优于单纯人工数据：scaling factor 从 1 增到 10，性能从 17.2 跃升至 36.0，而仅用人工轨迹只能到 17.2
远优于直接蒸馏：同等数据规模下，Trajectory Boost 比 Direct Distillation 高出约 8 个百分点，且时间效率高 300 倍（3h vs 900h）
跨平台泛化：在 Linux 系统的 OSWorld 上，PC Agent-E 同样获得 34% 相对提升（4.4→10.9%），尽管训练数据全部来自 Windows
提升主要来自规划能力：定性分析显示训练后模型产生更长的思维过程，self-correction 和 verification 能力显著增强，但知识和定位（grounding）能力未明显改善
Infeasible Hacking 现象：弱模型在不可行任务上反而得分更高（Qwen 86.7% vs PC Agent-E 63.3%），说明当前评估存在漏洞

亮点与洞察¶

单步离线合成 vs 端到端在线蒸馏：这是一个非常巧妙的 insight——computer use 任务每步天然有多条有效路径，用人工轨迹锚定环境状态、单步合成替代动作，避免了多步蒸馏的错误累积，同时实现 300x 加速
极致数据效率：312 条轨迹→27K 样本→超越教师模型，这说明高质量的 diverse supervision 比大规模低质量数据更重要
WindowsAgentArena-V2 的评估改进：修复了评估依赖、infeasible hacking、VM 状态不稳定等问题，对社区有独立贡献价值
Traj Tree 结构可迁移：这个思路可用于任何基于环境快照的 sequential decision-making 任务（如 web navigation、mobile GUI、robotics），只要每步有多条有效路径

局限性 / 可改进方向¶

训练数据仅 312 条轨迹，覆盖范围有限：主要集中在 Chrome、系统设置等常用应用，LibreOffice 等复杂场景表现仍弱（4.8%）
未利用图像历史：推理时只用当前截图，不利用过去截图，作者也承认加入图像历史可能有益
知识和 Grounding 瓶颈未解决：主要提升来自规划能力，对于需要特定软件知识的任务（如 VLC 功能）和精确定位的场景改进有限
合成动作未在真实环境中验证：Trajectory Boost 的合成动作只是"看起来合理"但未实际执行，可能包含无法成功执行的动作
仅做了 SFT 未做 RL：结合 RL（如 GRPO + 环境奖励）可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ Trajectory Boost 思路简洁优雅，但本质是利用人工轨迹+强模型单步合成，概念并不复杂
实验充分度: ⭐⭐⭐⭐⭐ 对比了多种基线、消融完整、跨平台泛化、test-time scaling、定性分析一应俱全
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，图表精美，motivation 推导流畅
价值: ⭐⭐⭐⭐ 对 GUI agent 数据高效训练有重要参考价值，300x 加速和超越教师模型的结果令人印象深刻