跳转至

AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs

会议: ACL 2025
arXiv: 2502.01977
代码: https://autogui-project.github.io/
领域: 其他
关键词: GUI understanding, UI grounding, functionality annotation, VLM, automatic pipeline

一句话总结

提出 AutoGUI 自动标注管线——通过模拟交互比较 UI 状态变化 + LLM 推断元素功能 + LLM 验证过滤,构建 704K 高质量 UI 功能标注数据集,标注正确率 96.7% 可比人类,显著提升 VLM 的 UI grounding 能力且展现数据扩展效应。

研究背景与动机

  1. 领域现状:VLM 在 UI 理解上潜力巨大,但现有 UI 数据集规模远小于自然图像数据集(如 LAION-5B),且传统人工标注成本禁止性地高。
  2. 现有痛点:现有 UI 数据集的标注质量低——主要是元素的 alt-text(如"按钮1")或与 UI 上下文弱相关的简短意图描述,缺乏上下文化的功能语义描述。例如,两个外观相同的放大镜图标可能分别代表"搜索"和"缩放"——现有标注无法区分。
  3. 核心矛盾:需要大规模、高质量、上下文化的 UI 元素功能标注,但人工标注不可扩展。
  4. 核心 idea:用 LLM 比较交互前后的 UI 状态变化来自动推断元素功能,完全无需人工标注。

方法详解

整体框架

三阶段自动化管线:(1) UI 交互轨迹爬取 → (2) LLM 功能推断 + 质量控制 → (3) 用于 VLM 微调的 grounding/referring 任务数据。

关键设计

  1. 交互轨迹爬取:
  2. 在浏览器和 Android 模拟器上自动爬取大量交互轨迹。
  3. 对每个 UI 元素,记录点击前后的 UI 截图及状态变化。

  4. LLM 功能推断:

  5. 将交互前后的 UI 截图及状态变化提供给开源 LLM(LLaMA 3),推断元素的功能描述。
  6. 例如:点击放大镜图标后出现搜索框 → 推断为"打开搜索功能"。

  7. 质量控制(LLM-aided rejection + verification):

  8. Rejection: LLM 检测无效样本(如未完全渲染的 UI)并剔除。
  9. Verification: 多个 LLM 作为验证器,识别错误的功能描述并过滤。
  10. 最终标注正确率 96.7%,可比受过训练的人类标注者。

  11. 数据集特点:

  12. AutoGUI-704K:704K 个标注样本,覆盖 Web 和 Mobile UI。
  13. 多分辨率支持(不同设备屏幕尺寸)。
  14. 功能描述富含语义(如"打开设置菜单"而非简单的"按钮")。

实验关键数据

主实验

VLM 无 AutoGUI 数据 有 AutoGUI 数据 提升
Qwen2-VL 基线 显著提升
InternVL2 基线 显著提升

消融与分析

发现 说明
功能标注 > alt-text/元数据标注 上下文化功能描述显著优于从 HTML 代码直接提取的标注
明显的数据扩展效应 数据量从 100K→704K grounding 准确率持续提升
可辅助 GUI agent 任务 训练后的 VLM 可通过更准确的元素定位辅助 agent 操作

亮点与洞察

  • "交互差异推断功能"的设计思路非常巧妙:不是直接看元素的外观,而是通过"点击它会发生什么"来理解其功能——类似人类探索新界面的方式。
  • 双重 LLM 质控(rejection + verification)确保了全自动管线的质量与人工可比。
  • 数据扩展效应表明该管线可持续扩大数据规模以进一步提升效果。

局限性 / 可改进方向

  • 仅覆盖 Web 和 Android 的 UI,iOS 和桌面应用未涉及。
  • 当前管线依赖交互式爬取,对动态或登录后才可见的界面覆盖不足。
  • LLM 推断的功能描述可能对深层业务逻辑理解不足。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个全自动 UI 功能标注管线,交互差异推断功能的思路新颖
  • 实验充分度: ⭐⭐⭐⭐ 704K 数据集 + 多 VLM + 扩展性 + agent 应用
  • 写作质量: ⭐⭐⭐⭐ 管线描述清晰,人类对比有说服力
  • 价值: ⭐⭐⭐⭐⭐ 解决 UI 理解的数据瓶颈,对 GUI agent 研究有重要基础设施价值