AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs¶
会议: ACL 2025
arXiv: 2502.01977
代码: https://autogui-project.github.io/
领域: 其他
关键词: GUI understanding, UI grounding, functionality annotation, VLM, automatic pipeline
一句话总结¶
提出 AutoGUI 自动标注管线——通过模拟交互比较 UI 状态变化 + LLM 推断元素功能 + LLM 验证过滤,构建 704K 高质量 UI 功能标注数据集,标注正确率 96.7% 可比人类,显著提升 VLM 的 UI grounding 能力且展现数据扩展效应。
研究背景与动机¶
- 领域现状:VLM 在 UI 理解上潜力巨大,但现有 UI 数据集规模远小于自然图像数据集(如 LAION-5B),且传统人工标注成本禁止性地高。
- 现有痛点:现有 UI 数据集的标注质量低——主要是元素的 alt-text(如"按钮1")或与 UI 上下文弱相关的简短意图描述,缺乏上下文化的功能语义描述。例如,两个外观相同的放大镜图标可能分别代表"搜索"和"缩放"——现有标注无法区分。
- 核心矛盾:需要大规模、高质量、上下文化的 UI 元素功能标注,但人工标注不可扩展。
- 核心 idea:用 LLM 比较交互前后的 UI 状态变化来自动推断元素功能,完全无需人工标注。
方法详解¶
整体框架¶
三阶段自动化管线:(1) UI 交互轨迹爬取 → (2) LLM 功能推断 + 质量控制 → (3) 用于 VLM 微调的 grounding/referring 任务数据。
关键设计¶
- 交互轨迹爬取:
- 在浏览器和 Android 模拟器上自动爬取大量交互轨迹。
-
对每个 UI 元素,记录点击前后的 UI 截图及状态变化。
-
LLM 功能推断:
- 将交互前后的 UI 截图及状态变化提供给开源 LLM(LLaMA 3),推断元素的功能描述。
-
例如:点击放大镜图标后出现搜索框 → 推断为"打开搜索功能"。
-
质量控制(LLM-aided rejection + verification):
- Rejection: LLM 检测无效样本(如未完全渲染的 UI)并剔除。
- Verification: 多个 LLM 作为验证器,识别错误的功能描述并过滤。
-
最终标注正确率 96.7%,可比受过训练的人类标注者。
-
数据集特点:
- AutoGUI-704K:704K 个标注样本,覆盖 Web 和 Mobile UI。
- 多分辨率支持(不同设备屏幕尺寸)。
- 功能描述富含语义(如"打开设置菜单"而非简单的"按钮")。
实验关键数据¶
主实验¶
| VLM | 无 AutoGUI 数据 | 有 AutoGUI 数据 | 提升 |
|---|---|---|---|
| Qwen2-VL | 基线 | 显著提升 | ✓ |
| InternVL2 | 基线 | 显著提升 | ✓ |
消融与分析¶
| 发现 | 说明 |
|---|---|
| 功能标注 > alt-text/元数据标注 | 上下文化功能描述显著优于从 HTML 代码直接提取的标注 |
| 明显的数据扩展效应 | 数据量从 100K→704K grounding 准确率持续提升 |
| 可辅助 GUI agent 任务 | 训练后的 VLM 可通过更准确的元素定位辅助 agent 操作 |
亮点与洞察¶
- "交互差异推断功能"的设计思路非常巧妙:不是直接看元素的外观,而是通过"点击它会发生什么"来理解其功能——类似人类探索新界面的方式。
- 双重 LLM 质控(rejection + verification)确保了全自动管线的质量与人工可比。
- 数据扩展效应表明该管线可持续扩大数据规模以进一步提升效果。
局限性 / 可改进方向¶
- 仅覆盖 Web 和 Android 的 UI,iOS 和桌面应用未涉及。
- 当前管线依赖交互式爬取,对动态或登录后才可见的界面覆盖不足。
- LLM 推断的功能描述可能对深层业务逻辑理解不足。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个全自动 UI 功能标注管线,交互差异推断功能的思路新颖
- 实验充分度: ⭐⭐⭐⭐ 704K 数据集 + 多 VLM + 扩展性 + agent 应用
- 写作质量: ⭐⭐⭐⭐ 管线描述清晰,人类对比有说服力
- 价值: ⭐⭐⭐⭐⭐ 解决 UI 理解的数据瓶颈,对 GUI agent 研究有重要基础设施价值