Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction¶

会议: ICML 2025

作者: Yiheng Xu, Zekun Wang, Junli Wang, Dunjie Lu, Tianbao Xie, Amrita Saha, Doyen Sahoo, Tao Yu, Caiming Xiong (HKU & Salesforce Research)

领域: LLM Agent

关键词: GUI Agent, Pure Vision, Cross-Platform, Inner Monologue, Two-Stage Training

代码: GitHub | 项目页面

一句话总结¶

提出 Aguvis，首个完全基于纯视觉的跨平台自主 GUI Agent 框架，通过统一视觉观察空间、标准化动作空间和内心独白（inner monologue）机制，在离线和在线基准上取得 SOTA，无需依赖闭源模型。

研究背景与动机¶

现有 GUI 自动化方法存在三个核心瓶颈：

依赖文本表示：大多数 GUI Agent 需要 HTML DOM 树、accessibility tree 等文本化结构，但这些表示跨平台不通用、信息冗余且难以捕获视觉布局

动作空间碎片化：Web、桌面、移动端各自定义了不同的交互操作集合，模型难以跨平台迁移

推理能力不足：现有方法缺乏显式的规划和推理链路，在复杂多步 GUI 任务中频繁失败

作者观察到，人类操作 GUI 时主要依靠视觉感知而非底层代码结构，因此从"纯视觉"角度出发，统一所有平台的输入为截图图像，是更自然且更具泛化能力的方案。

方法详解¶

整体框架¶

Aguvis 包含三个关键设计：统一纯视觉输入、标准化跨平台动作空间和内心独白推理机制。

输入：直接接收屏幕截图作为观察，无需任何文本化中间表示
输出：统一的动作序列（click、type、scroll、press 等），通过插件系统适配不同平台
推理：在动作预测前生成自然语言的"内心独白"，显式进行任务分解和当前状态分析

数据集构建 — Aguvis Data Collection¶

构建了大规模多模态 GUI Agent 训练数据集，包含：

GUI 定位标注：截图中 UI 元素的坐标标注，训练模型理解"屏幕上哪里有什么"
推理标注：为每个操作步骤添加规划和推理的自然语言描述
涵盖 Web、桌面（Windows/Linux/macOS）、移动端（Android）多个平台

两阶段训练管线¶

Stage 1 — GUI Grounding（视觉定位）：

目标：让模型学会在截图中精确定位 UI 元素
训练任务：给定自然语言描述，预测元素的边界框坐标
损失函数为标准的坐标回归损失：

\[\mathcal{L}_{\text{ground}} = \frac{1}{N} \sum_{i=1}^{N} \| \hat{b}_i - b_i \|_2^2\]

其中 \(\hat{b}_i\) 为预测坐标，\(b_i\) 为 ground truth 坐标

Stage 2 — Planning & Reasoning（规划与推理）：

目标：在已具备定位能力的基础上，学习多步任务规划和推理
引入 inner monologue 机制，模型先生成当前状态分析和下一步计划，再输出具体动作
训练数据为完整的任务轨迹，包含 (截图, 内心独白, 动作) 三元组序列

关键设计 — Inner Monologue¶

内心独白包含三个要素：

观察总结：描述当前屏幕状态（如"当前在文件管理器中，已打开文档"）
任务进度：评估距离目标还有哪些步骤
下一步计划：明确下一个操作及其原因

这种显式推理链路显著提升了复杂任务（如跨应用操作）的成功率。

实验关键数据¶

离线实验 — ScreenSpot 视觉定位¶

模型	Mobile Text	Mobile Icon	Desktop Text	Desktop Icon	Web Text	Web Icon	平均
GPT-4o	78.0	24.9	72.9	43.6	70.3	22.3	52.0
CogAgent	67.0	24.9	74.2	20.0	70.4	28.6	47.5
SeeClick	78.0	52.0	72.2	30.0	55.7	32.5	53.4
OS-Atlas-7B	93.0	72.2	91.8	62.7	85.7	49.0	75.7
Aguvis-7B	93.4	76.9	91.0	66.8	85.7	55.5	78.2

在线实验 — OSWorld 真实桌面环境¶

模型	总体成功率 (%)
GPT-4o	5.03
GPT-4o + SoM	4.59
SecClick	9.21
OS-Atlas-Base-4B	11.65
OS-Atlas-Base-7B	14.63
Aguvis-7B	14.79
Human	72.36

在线实验 — AndroidWorld & Mind2Web-Live¶

在 AndroidWorld 真实 Android 环境中，Aguvis-72B 达到 21.8% 任务成功率，在 MobileMiniWob++ 上达到 62.5%，均超越同规模基线。

在 Mind2Web-Live 真实网页交互中，Aguvis-7B 以纯视觉输入在任务成功率上可与使用 HTML 文本输入的方法竞争，同时推理成本更低。

消融实验¶

配置	ScreenSpot Avg	OSWorld SR
完整 Aguvis-7B	78.2	14.79
去掉 Stage 1（无 grounding 预训练）	69.5	10.2
去掉 Inner Monologue	74.8	11.6
仅用 Web 数据训练	72.1	8.9
仅用 Mobile 数据训练	70.3	7.5

关键发现： - 两阶段训练中 Stage 1 对定位能力贡献最大（+8.7 pp） - Inner Monologue 对复杂在线任务提升显著（+3.2 pp OSWorld SR） - 跨平台混合训练数据带来明显的迁移增益

亮点与洞察¶

纯视觉路线的可行性验证：首次证明不依赖 HTML/DOM 的纯视觉 GUI Agent 可以在真实环境中达到 SOTA，这对跨平台部署有重大意义
训练解耦的巧妙设计：将"看到哪里"（grounding）和"决定做什么"（planning）分离训练，避免两个能力相互干扰
开源生态贡献：完整开源数据集、模型和训练代码，填补了社区在开源视觉 GUI Agent 方面的空白

局限性¶

与人类 72.36% 的 OSWorld 成功率相比，14.79% 仍有巨大差距
纯视觉方式在文本密集型 UI（如代码编辑器、电子表格）中可能不如 DOM 解析准确
当前 inner monologue 为自然语言形式，缺乏形式化的错误恢复机制
对视觉模型的分辨率和推理速度有较高要求，72B 版本部署成本较高

评分¶

维度	分数 (1-5)	说明
创新性	4	纯视觉路线 + 两阶段训练 + inner monologue 的组合较新颖
实验充分度	5	离线+在线、多平台、多基准全面覆盖
实用价值	4	完整开源，可直接用于 GUI 自动化产品
写作清晰度	4	方法描述清晰，实验组织系统
总分	4.25	高质量的系统性工作