TongUI: Internet-Scale Trajectories from Multimodal Web Tutorials for Generalized GUI Agents¶
会议: AAAI 2026
arXiv: 2504.12679
代码: https://github.com/TongUI-agent/TongUI-agent
领域: GUI Agent / 多模态VLM
关键词: GUI Agent, 轨迹数据, 多模态教程, VLM微调, 跨平台泛化
一句话总结¶
TongUI 提出从互联网上的多模态教程(视频+图文)自动转化为 GUI 操作轨迹数据的框架,构建了百万级的 GUI-Net-1M 数据集,用于微调 Qwen2.5-VL 模型,在多个 grounding 和 navigation 基准上超越或接近 UI-TARS 等 SOTA。
研究背景与动机¶
- 领域现状:GUI Agent 是当前热门方向,利用 LLM/VLM 模拟人类与计算机/手机交互,执行点击、填表、滚动等操作来完成任务。
- 现有痛点:训练高质量 GUI agent 需要大量操作轨迹数据,但现有数据获取方式要么依赖昂贵的人工标注(高质量但规模小),要么依赖大模型合成(质量和多样性不足)。
- 核心矛盾:理想的 GUI agent 需要跨多种操作系统和应用程序泛化,但现有数据集在规模、平台覆盖和应用多样性上都存在瓶颈,最大的开源数据集 AITW 也只有 715K 轨迹且仅覆盖 Android。
- 本文要解决什么? 如何低成本地获取大规模、高质量、跨平台的 GUI 操作轨迹数据。
- 切入角度:作者观察到互联网上存在海量的多模态 GUI 教程(YouTube 视频、WikiHow 图文教程),这些教程天然包含分步骤的 GUI 操作指导,只需要设计合适的转化流程就能变成训练数据。
- 核心 idea 一句话:将互联网上的多模态教程自动转化为 GUI 操作轨迹,构建百万级跨平台训练数据集。
方法详解¶
整体框架¶
TongUI 框架包含四个阶段:教程爬取 → 教程处理 → 轨迹生成 → 数据过滤。输入是互联网上的多模态教程(视频或图文),输出是格式化的 \((q, \{o_i, r_i, a_i\}_{i=1}^T)\) 轨迹数据,其中 \(q\) 是任务查询,\(o_i\) 是截图观察,\(r_i\) 是推理思考,\(a_i\) 是执行动作。基于 ReAct 框架进行序列决策。
关键设计¶
- 教程爬取(Tutorial Crawling):
- 做什么:从 YouTube、Bilibili、WikiHow、百度经验等平台爬取多模态 GUI 教程
- 核心思路:先用 brainstorming 生成种子任务关键词(如 "Chrome 修改字体大小"),再用 LLM 扩展关键词,以 "应用名 + 任务内容" 的格式检索。视频平台用 API 搜索下载,图文平台按标签爬取
-
设计动机:覆盖 4 个来源确保多样性,YouTube/Bilibili 提供视频教程,WikiHow/百度经验提供图文教程
-
教程处理(Tutorial Processing):
- 做什么:将异构的多模态教程统一转化为 "文本描述 + 截图" 的结构化格式
- 核心思路:文本处理方面,视频用 Whisper ASR 转录音频为文本,图文直接解析网页结构;然后用 LLM 提取任务 \(q\) 和分步描述 \(\{h_1, ..., h_T\}\)。视觉处理方面,图文教程直接取图片,视频教程用 MOG2 背景减除算法检测显著变化帧作为关键帧,并按音频时间戳分段
-
设计动机:不同来源的数据格式差异很大,需要统一处理流水线;用 GPT-4o-mini 过滤非截图图片(如漫画、自然图像)
-
轨迹生成(Trajectory Generation):
- 做什么:为每个步骤生成标准化的思考 \(r_i\) 和动作 \(a_i\)
- 核心思路:利用预训练的零样本 GUI agent(如 UI-TARS)对每个步骤的截图 \(o_i\) 和描述 \(h_i\) 进行推理,生成格式化的思考和动作。注意使用步骤描述 \(h_i\) 而非整体任务 \(q\) 作为查询输入。如果某个步骤生成失败,则将原轨迹拆分为两段独立轨迹
-
设计动机:用 \(h_i\) 而非 \(q\) 可以让 agent 更准确地识别当前步骤需要做什么;拆分策略避免了错误传播
-
多阶段数据过滤(Data Filtering):
- 做什么:逐步清洗数据,从原始数据中保留 33% 的高质量轨迹
- 核心思路:三阶段过滤——(1) 基于 URL/视频 ID 去重;(2) LLM 判断教程是否与 GUI 任务相关;(3) 轨迹级过滤,丢弃 agent 预测 wait/call_user 的步骤,再用 Qwen2.5-VL-7B 评估轨迹质量
训练策略¶
两阶段训练:先用 GUI-Net-1M 数据微调基础 VLM,再用评测数据集的训练集进行 SFT。使用 LoRA(rank=16, alpha=32,仅 0.5% 参数),上下文窗口 8192,最多保留前 2 步观察(3 张图),每张图限制 1350 视觉 token。
实验关键数据¶
主实验 — Grounding(ScreenSpot)¶
| 方法 | ScreenSpot Avg | ScreenSpot-V2 Avg | ScreenSpot-Pro Avg |
|---|---|---|---|
| ShowUI-2B | 75.1 | - | 7.7 |
| UI-TARS-7B | 89.5 | 91.6 | 35.7 |
| Qwen2.5-VL-7B (baseline) | 78.6 | 84.0 | 12.5 |
| TongUI-3B | 83.6 | 85.5 | 18.0 |
| TongUI-7B | 86.0 | 88.7 | 24.7 |
| TongUI-32B | 88.5 | 92.1 | 33.1 |
消融实验 — 数据源扩展效果¶
| 配置 | ScreenSpot Avg | Mind2Web Step SR |
|---|---|---|
| No SFT | 56.5 | 1.7 |
| Refined data only | 68.0 | 40.7 |
| + WikiHow 50K | 75.8 | 44.4 |
| + Baidu 50K | 78.7 | 45.5 |
| + Video 50K | 79.6 | 46.0 |
| + All data | 83.6 | 49.5 |
关键发现¶
- TongUI-3B 就能超越 ShowUI-2B(75.1→83.6),说明数据质量和规模的重要性
- 在 AndroidControl 上 TongUI-3B(73.3/91.5)甚至超过 UI-TARS-2B(68.9/89.3),表明多源数据带来的泛化优势
- 数据源扩展实验清晰展示了每增加一类来源都有稳定提升:仅公开数据→+WikiHow→+百度经验→+视频,ScreenSpot 从 68→76→79→80→84
- 在线导航(MiniWob)上 TongUI-3B(72.7)超过 ShowUI-2B(71.5),说明离线教程数据也能提升在线场景的泛化
- 用户研究显示过滤后数据质量评分从 3.22 提升到 4.12,接近 ShowUI 数据集的 4.26
亮点与洞察¶
- 数据来源创新:巧妙利用互联网上已有的教程资源而非人工标注或模型合成,这个 "站在巨人肩膀上" 的思路可以迁移到其他需要大量标注数据的 agent 任务(如代码agent、办公自动化)
- 多模态教程处理流水线:将视频(ASR → 关键帧提取)和图文(HTML 解析)统一到相同的轨迹格式,处理流程设计得很工程化
- 用零样本 agent 生成轨迹标注:不需要真实执行环境,用已有 agent 对截图进行零样本推理获得动作标注,避免了模拟器依赖
- 渐进式数据过滤:三阶段过滤保留 33% 数据,用户研究证实过滤后质量显著提升
局限性 / 可改进方向¶
- 数据一次性收集训练,无法持续学习,作者自己指出了这个不足
- 轨迹生成依赖 UI-TARS 的零样本能力,UI-TARS 质量直接决定了数据上限
- 步骤描述 \(h_i\) 作为 query 而非完整任务 \(q\),可能导致生成的 thought 缺乏全局规划能力
- 33% 的数据保留率意味着 67% 被丢弃,过滤策略可能过于激进或不够精细
- 仅使用 LoRA 微调,全参数微调或多轮 RL 训练可能进一步提升性能
相关工作与启发¶
- vs UI-TARS: UI-TARS 性能更强但数据未开源,TongUI 完全开源(数据+代码+模型),且 TongUI 在某些 benchmark 上已接近或超过 UI-TARS
- vs AgentTrek: 同样从网络教程获取数据,但 AgentTrek 仅 10.4K 轨迹且依赖模拟器探索,TongUI 百万级且无需模拟器
- vs ShowUI: ShowUI 用 137K 数据但 TongUI 用百万级数据在多数 benchmark 上表现更好,验证了大规模数据的价值
- 启发:这种 "互联网教程→轨迹数据" 的范式可以扩展到其他 agent 领域,例如从 StackOverflow 教程训练代码 agent
评分¶
- 新颖性: ⭐⭐⭐⭐ 数据收集思路有创意但不涉及算法创新,核心贡献在数据工程
- 实验充分度: ⭐⭐⭐⭐⭐ 7 个 offline benchmark + 1 个 online benchmark + 用户研究 + 消融
- 写作质量: ⭐⭐⭐⭐ 结构清晰,流程描述详尽
- 价值: ⭐⭐⭐⭐⭐ 完全开源的百万级 GUI 数据集对社区价值很大