UIPro: Unleashing Superior Interaction Capability for GUI Agents¶

会议: ICCV 2025
arXiv: 2509.17328
代码: GitHub
领域: llm_agent
关键词: GUI 智能体, 统一动作空间, GUI grounding, 视觉语言模型, 多平台交互

一句话总结¶

提出 UIPro，通过构建 2060 万 GUI 理解样本进行预训练并提出统一动作空间整合异构 GUI agent 任务数据，实现跨移动端、Web 端和桌面端的 SOTA GUI 交互性能。

研究背景与动机¶

构建能像人类一样操作图形界面的自主 GUI agent 是 AI 的长期愿景。GUI 交互的核心能力包括：(1) GUI 元素的视觉理解和定位（grounding）；(2) 规划和执行符合用户目标的动作序列。

现有方法面临两个关键瓶颈：

数据规模不足：现有 GUI 交互数据集通常缺乏足够的规模和场景多样性。大规模训练的优势在小规模下无法显现（涌现能力），但 CogAgent（2.47 亿）和 ScreenAI（4.21 亿）等大规模数据集未公开

训练流程缺陷：不同 GUI 轨迹数据集采用异构动作空间（如 AITW 定义 swipe 为 DUAL_POINT(start, end)，AndroidControl 用 scroll(direction)），直接混合训练会导致动作冲突和性能下降

核心思路：(1) 构建最大规模开源 GUI 理解数据集（2060 万样本），为 agent 奠定强 grounding 基础；(2) 设计统一动作空间整合异构数据源，释放多源数据的潜力。

方法详解¶

整体框架¶

UIPro 采用两阶段训练： - 阶段 1：GUI 理解预训练 — 用 2060 万多平台多任务 GUI 理解样本训练，获得强 grounding 能力 - 阶段 2：GUI agent 任务微调 — 用统一动作空间整合后的 agent 轨迹数据微调，获得动作预测能力

两个基座模型：UIPro-SLiME（3B，从零训练）和 UIPro-Qwen2VL（7B，基于 Qwen2-VL 微调）。

关键设计¶

大规模 GUI 理解数据构建：从多来源采集并清洗 GUI 数据（Common Crawl 网页、Android 模拟器、RICO、MobileViews 等），生成 13 种任务类型的 <截图, 指代表达, 坐标> 三元组：
- 元素描述（elemgnd/elemref）：描述视觉外观、元素类型和位置
- 用户意图（intentgnd）：描述用户如何与元素交互，如"点击密码输入框"
- 上下文功能（funcgnd/funcref）：描述交互可供性，如"此元素使用户能分享内容"
- 文本定位（textgnd/OCR）、图标分类（icongnd/iconref）、widget 列表、GUI 问答和 GUI 摘要
- 最终 2060 万样本关联 250 万唯一截图，67% 新标注、33% 清洗自开源数据
统一动作空间设计：针对异构动作定义的冲突，设计动作超集：
- 统一 swipe 为 swipe(start, direction, distance)，兼容 AITW 的 DUAL_POINT 和 AndroidControl 的 scroll(direction)
- 为移动端、Web 端、桌面端分别定义统一动作空间（移动端含 tap, long_press, drag, input_text, swipe, navigate 等 12 种动作）
- 统一为 JSON 格式输出，如 {"action_type": "click", "target": (x, y)}
- 不在 prompt 中包含动作定义（实验发现排除后训练更高效）
系统化去噪流程：因原始 GUI 数据噪声严重（95.9% 主页有可访问性错误，某数据源噪声率达 29%），设计七步去噪：
- 检测空白元素（颜色标准差 < 5）
- OCR 检测不可见元素
- 移除无效/过大/过小边界框
- 移除重复框和不匹配元素

损失函数 / 训练策略¶

预训练阶段：坐标归一化至 [0, 1000]，UIPro-SLiME 全量融合ViT 冻结训练 1 epoch，UIPro-Qwen2VL 用 440 万子集 LoRA 微调
Agent 微调阶段：6 epochs 直到性能饱和，prompt 包含任务描述和动作历史，GT action 格式化为 JSON 对象
移动端混合 6 个数据源（38 万样本），Web 端混合 3 个数据源（14.5 万样本）

实验关键数据¶

主实验（表格）¶

AITW 移动端基准（Step SR%）：

方法	规模	General	Install	GoogleApps	Single	WebShop	Overall
GPT-4V-OmniParser	-	48.3	57.8	51.6	77.4	52.9	57.7
SeeClick	10B	54.0	66.4	54.9	63.5	57.6	59.3
OS-ATLAS	7B	57.9	63.4	55.5	79.1	59.7	63.1
UIPro-Qwen2VL	7B	64.4	74.6	67.9	79.4	67.6	70.4
UIPro-SLiME	3B	67.0	71.4	65.4	73.2	62.9	68.0

Mind2Web Web 端基准（Step SR%）：

方法	规模	Cross-Task	Cross-Website	Cross-Domain
OmniParser (GPT-4V)	-	39.4	36.5	42.0
OS-ATLAS	7B	36.7	35.7	37.2
UIPro-Qwen2VL	7B	48.4	43.6	45.5

消融实验（表格）¶

GUI 理解预训练数据量影响：

预训练数据量	平均 Grounding 准确率	AITW Step SR	AndroidControl Step SR
0	~30%	~52%	~40%
5.9M	~55%	~63%	~55%
20.6M	~60%	~68%	~61%

统一动作空间影响：混合数据源但不统一动作空间导致所有基准显著性能下降，主要原因是动作类型准确率大幅降低和 swipe 方向预测不一致。

关键发现¶

3B 的 UIPro-SLiME 超越 18B 的 CogAgent 和 GPT-4V-OmniParser
Grounding 准确率与下游 agent 任务性能呈正相关——grounding 是 agent 的基础
统一动作空间不仅提升共有动作准确率，也提升特有动作（如 Wait）准确率，说明跨任务知识迁移和数据多样性的正则化效果
GUI 理解数据和 agent 任务数据均展现清晰的 scaling law
去噪带来的提升在所有 6 个 grounding 基准上一致显著

亮点与洞察¶

最大规模开源 GUI 理解数据集（2060 万），涵盖 13 种任务类型
统一动作空间的设计理念简洁有效——用超集兼容不同定义，不同平台共享相似交互原则
系统化去噪流程揭示了 GUI 数据质量问题的严重性（某数据源 29% 噪声率）
功能性 grounding 任务（funcgnd）的加入是一个重要贡献——让模型理解元素"能做什么"而非仅"是什么"

局限与展望¶

桌面环境训练数据远少于移动和 Web，限制了 UIPro 在 Windows/MacOS 上的表现
当前仅支持离线评估（offline evaluation），on-device 实时交互评估待探索
动作空间统一仍是手动设计，未来可探索自动学习跨平台动作对齐
AITW 等基准未考虑替代解决方案，导致评估可能偏低

评分¶

新颖性: ⭐⭐⭐⭐ （统一动作空间 + 大规模数据工程的系统性贡献）
实验充分度: ⭐⭐⭐⭐⭐ （5 个基准 + 6 个 grounding 基准 + 全面消融 + 迁移实验）
写作质量: ⭐⭐⭐⭐ （结构清晰，细节完整）
价值: ⭐⭐⭐⭐⭐ （对 GUI agent 社区的数据和方法论贡献均很重要）