AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs¶

会议: ACL 2025
arXiv: 2502.01977
代码: https://autogui-project.github.io/
领域: 其他
关键词: GUI understanding, UI grounding, functionality annotation, VLM, automatic pipeline

一句话总结¶

提出 AutoGUI 自动标注管线——通过模拟交互比较 UI 状态变化 + LLM 推断元素功能 + LLM 验证过滤，构建 704K 高质量 UI 功能标注数据集，标注正确率 96.7% 可比人类，显著提升 VLM 的 UI grounding 能力且展现数据扩展效应。

研究背景与动机¶

领域现状：VLM 在 UI 理解上潜力巨大，但现有 UI 数据集规模远小于自然图像数据集（如 LAION-5B），且传统人工标注成本禁止性地高。
现有痛点：现有 UI 数据集的标注质量低——主要是元素的 alt-text（如"按钮1"）或与 UI 上下文弱相关的简短意图描述，缺乏上下文化的功能语义描述。例如，两个外观相同的放大镜图标可能分别代表"搜索"和"缩放"——现有标注无法区分。
核心矛盾：需要大规模、高质量、上下文化的 UI 元素功能标注，但人工标注不可扩展。
核心 idea：用 LLM 比较交互前后的 UI 状态变化来自动推断元素功能，完全无需人工标注。

方法详解¶

整体框架¶

三阶段自动化管线：(1) UI 交互轨迹爬取 → (2) LLM 功能推断 + 质量控制 → (3) 用于 VLM 微调的 grounding/referring 任务数据。

关键设计¶

交互轨迹爬取:
在浏览器和 Android 模拟器上自动爬取大量交互轨迹。
对每个 UI 元素，记录点击前后的 UI 截图及状态变化。
LLM 功能推断:
将交互前后的 UI 截图及状态变化提供给开源 LLM（LLaMA 3），推断元素的功能描述。
例如：点击放大镜图标后出现搜索框 → 推断为"打开搜索功能"。
质量控制（LLM-aided rejection + verification）:
Rejection: LLM 检测无效样本（如未完全渲染的 UI）并剔除。
Verification: 多个 LLM 作为验证器，识别错误的功能描述并过滤。
最终标注正确率 96.7%，可比受过训练的人类标注者。
数据集特点:
AutoGUI-704K：704K 个标注样本，覆盖 Web 和 Mobile UI。
多分辨率支持（不同设备屏幕尺寸）。
功能描述富含语义（如"打开设置菜单"而非简单的"按钮"）。

实验关键数据¶

主实验¶

VLM	无 AutoGUI 数据	有 AutoGUI 数据	提升
Qwen2-VL	基线	显著提升	✓
InternVL2	基线	显著提升	✓

消融与分析¶

发现	说明
功能标注 > alt-text/元数据标注	上下文化功能描述显著优于从 HTML 代码直接提取的标注
明显的数据扩展效应	数据量从 100K→704K grounding 准确率持续提升
可辅助 GUI agent 任务	训练后的 VLM 可通过更准确的元素定位辅助 agent 操作

亮点与洞察¶

"交互差异推断功能"的设计思路非常巧妙：不是直接看元素的外观，而是通过"点击它会发生什么"来理解其功能——类似人类探索新界面的方式。
双重 LLM 质控（rejection + verification）确保了全自动管线的质量与人工可比。
数据扩展效应表明该管线可持续扩大数据规模以进一步提升效果。

局限性 / 可改进方向¶

仅覆盖 Web 和 Android 的 UI，iOS 和桌面应用未涉及。
当前管线依赖交互式爬取，对动态或登录后才可见的界面覆盖不足。
LLM 推断的功能描述可能对深层业务逻辑理解不足。

评分¶

新颖性: ⭐⭐⭐⭐ 首个全自动 UI 功能标注管线，交互差异推断功能的思路新颖
实验充分度: ⭐⭐⭐⭐ 704K 数据集 + 多 VLM + 扩展性 + agent 应用
写作质量: ⭐⭐⭐⭐ 管线描述清晰，人类对比有说服力
价值: ⭐⭐⭐⭐⭐ 解决 UI 理解的数据瓶颈，对 GUI agent 研究有重要基础设施价值