跳转至

UI-Evol: Automatic Knowledge Evolving for Computer Use Agents

会议: ICML 2025
arXiv: 2505.21964
代码: 未公开
领域: LLM Agent / GUI自动化
关键词: 计算机操作代理, 知识进化, 自我改进, GUI交互, 轨迹回溯

一句话总结

提出UI-Evol即插即用模块,通过Retrace(从截图还原实际动作序列)和Critique(对比外部知识诊断偏差并修正)两阶段自主进化GUI任务知识,在OSWorld基准上将Agent S2的成功率从19.5%提升到22%+,同时将行为标准差降低约4倍,显著增强了计算机操作代理的可靠性。

研究背景与动机

领域现状

计算机操作代理(Computer Use Agent)旨在自动与GUI交互完成任务。当前主流方法分为:(1) 单体端到端agent(如UI-TARS、SeeClick),直接用一个模型预测动作;(2) 模块化agent(如Agent S2),将任务分解为规划、感知、执行等模块。两类方法都依赖大型多模态模型(LMM)作为核心推理引擎。

为弥补LMM自身知识不足,Agent S2等先进方法引入外部知识检索:给定任务后先通过 Perplexica 搜索网页获取操作步骤,作为soft prior辅助规划。例如"如何在LibreOffice中全选文本"→检索到操作指南→作为提示输入agent。

核心问题:知识-执行鸿沟

作者对Agent S2+GPT-4o进行抽样分析发现:即使90%的检索知识被人类判定为"正确",agent的最佳成功率仅41%。深入分析发现检索知识存在以下实际缺陷:

遗漏必要中间步骤:人类认为理所当然但agent无法推理的操作步骤

初始条件假设不一致:知识假设的起始状态与实际环境不符

建议过于复杂的操作:如建议鼠标拖拽选择文本,但agent很难精确执行拖拽;实际用 Ctrl+A 更可靠

核心洞察

检索到的知识本身大体可靠(90%正确率),但缺乏与实际GUI环境和agent能力的对齐。需要一种机制让知识在实际交互中自我进化。

方法详解

整体框架

任务指令 → 外部知识检索 → Agent执行(产生轨迹截图) → UI-Evol: Retrace阶段(从截图还原客观动作) → Critique阶段(对比知识、诊断偏差、生成修正) → 更新知识库 → 下轮执行使用进化后知识

UI-Evol是即插即用模块,可嵌入任何基于知识的agent系统。

关键设计

1. Retrace阶段(轨迹回溯)

功能:从agent执行过程中每一步的前后截图 \((O_t, O_{t+1})\) 出发,用LMM分析UI变化,还原出客观动作序列(Objective Action Sequence)。

为什么不直接用agent输出的动作日志:agent存在幻觉和感知错误,其"主观动作序列"(Subjective Action Sequence)只代表意图而非实际效果。例如agent以为自己选中了全部文本,实际上只选中了部分。

实现方式:对每步\(t\),将 \(O_t\)(操作前截图)和 \(O_{t+1}\)(操作后截图)输入GPT-4o,输出该步实际发生的动作描述\(\hat{A}_t\)和可见结果。如果前后截图无变化则标记为null。最终合并为文本格式的客观动作序列。

设计动机:基于视觉观察的回溯消除了无效动作的噪音,为后续Critique提供可靠的"事实基准"。

2. Critique阶段(知识批判与修正)

功能:利用检索到的外部知识作为参考锚点,通过链式推理分析客观动作序列与知识之间的偏差,生成修正后的知识。

四步结构化推理(Chain-of-Thought): 1. 完成度评估(Completion Assessment):任务是否完成?是否执行了多余操作? 2. 偏差检测(Deviation Detection):逐步对比客观动作与知识计划,识别每个偏差并推断根因(含9类根因分类:感知误解、知识缺口、语法错误、环境问题、无效假设等) 3. 替代方案探索(Alternative Exploration):agent是否尝试了知识计划之外的有效替代方案? 4. 改进与理据(Mitigation with Rationales):针对每个偏差根因生成具体修正方案,输出格式与原知识一致的精炼计划(最多15步)

设计动机:将检索知识作为参考锚点而非直接修正目标,利用其90%的可靠性作为对比基准。

实验关键数据

主实验(OSWorld基准,369个任务)

方法 基础模型 平均成功率↑ 标准差↓ 报告值
Agent S2 (原文) GPT-4o - - 21.1%
Agent S2* (复现) GPT-4o 19.5% ±1.00 -
+ UI-Evol GPT-4o 22.0% ±0.71 -
Agent S2* (复现) OpenAI-o3 25.6% ±1.09 -
+ UI-Evol OpenAI-o3 28.3% ±0.26 -

消融实验

配置 平均成功率 说明
随机选择轨迹 + UI-Evol 22.0% SSR=70%
基于完成度选择 + UI-Evol 22.7% SSR=85%,略优

UI-Evol对轨迹选择质量不敏感,即使输入较差的轨迹也能有效进化知识。

知识迁移实验

用OpenAI-o3生成的轨迹进化出的知识,迁移给GPT-4o使用 → 成功率22.4%,与GPT-4o自身轨迹进化的22.0%相当,说明进化知识可跨模型迁移。

关键发现

  • o3模型的标准差降低至±0.26:约为GPT-4o的1/4,更强推理能力的模型更能利用进化知识
  • 之前被忽视的不稳定性问题:即使固定所有超参数(含temperature=0),Agent S2在3次重复实验中仍有显著波动(±1.0-1.09),这在先前研究中从未被系统分析

亮点与洞察

  • 知识-执行鸿沟的精准诊断:90%知识正确但只有41%成功率——这个gap的量化分析非常有洞察力,揭示了知识检索不等于知识可用
  • 客观vs主观动作序列的区分:用截图还原真实动作而非信任agent日志,这是真正做到"观察事实而非相信叙述"
  • 案例说明极具说服力:LibreOffice全选文本的例子——知识说"拖拽选择",agent拖拽失败;UI-Evol修正为"Ctrl+A"——完美体现了从理论正确到实践可用的差距
  • 并行评估框架:30个Azure并行实例,10小时→2.5小时——这本身就是对agent评估基础设施的贡献

局限与展望

  • 需要一次完整执行轨迹:进化知识前agent必须先执行一遍任务(即使失败),增加了计算成本(每任务约\(0.22,全基准\)81.18)
  • 仅一轮进化:当前只做一次retrace+critique,理论上多轮迭代可能进一步提升
  • 依赖强LMM做Retrace和Critique:GPT-4o做Retrace、o3做Critique,如果底座模型能力不足则整个流程可能退化
  • 未探索失败任务的知识利用:当前主要利用成功或部分成功的轨迹,失败轨迹中也蕴含"不该做什么"的信息

相关工作与启发

  • vs Agent S2 (无UI-Evol):Agent S2用Perplexica检索知识作soft prior但不做修正,UI-Evol证明通过环境交互反馈进化知识可获得2.5%绝对提升
  • vs Voyager (技能库):Voyager在Minecraft中通过成功经验构建技能代码库,UI-Evol思路类似但面向更复杂的桌面GUI环境,且知识表示为自然语言计划而非代码
  • vs Self-Refine / CRITIC:这些是通用的LLM自我修正方法,UI-Evol的关键区别是引入了基于截图的客观轨迹作为修正依据,而非纯粹的LLM自反思

评分

  • 新颖性: ⭐⭐⭐⭐ Retrace+Critique的两阶段知识进化框架新颖,客观动作序列的概念有价值
  • 实验充分度: ⭐⭐⭐⭐ 3次重复实验+标准差报告+消融+知识迁移+并行框架,但仅在OSWorld一个基准上验证
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,案例说服力强
  • 价值: ⭐⭐⭐⭐ 即插即用设计+首次系统分析agent不稳定性,对GUI agent领域有实际推动

相关论文