TongUI: Internet-Scale Trajectories from Multimodal Web Tutorials for Generalized GUI Agents¶

会议: AAAI 2026
arXiv: 2504.12679
代码: https://github.com/TongUI-agent/TongUI-agent
领域: GUI Agent / 多模态VLM
关键词: GUI Agent, 轨迹数据, 多模态教程, VLM微调, 跨平台泛化

一句话总结¶

TongUI 提出从互联网上的多模态教程（视频+图文）自动转化为 GUI 操作轨迹数据的框架，构建了百万级的 GUI-Net-1M 数据集，用于微调 Qwen2.5-VL 模型，在多个 grounding 和 navigation 基准上超越或接近 UI-TARS 等 SOTA。

研究背景与动机¶

领域现状：GUI Agent 是当前热门方向，利用 LLM/VLM 模拟人类与计算机/手机交互，执行点击、填表、滚动等操作来完成任务。
现有痛点：训练高质量 GUI agent 需要大量操作轨迹数据，但现有数据获取方式要么依赖昂贵的人工标注（高质量但规模小），要么依赖大模型合成（质量和多样性不足）。
核心矛盾：理想的 GUI agent 需要跨多种操作系统和应用程序泛化，但现有数据集在规模、平台覆盖和应用多样性上都存在瓶颈，最大的开源数据集 AITW 也只有 715K 轨迹且仅覆盖 Android。
本文要解决什么？ 如何低成本地获取大规模、高质量、跨平台的 GUI 操作轨迹数据。
切入角度：作者观察到互联网上存在海量的多模态 GUI 教程（YouTube 视频、WikiHow 图文教程），这些教程天然包含分步骤的 GUI 操作指导，只需要设计合适的转化流程就能变成训练数据。
核心 idea 一句话：将互联网上的多模态教程自动转化为 GUI 操作轨迹，构建百万级跨平台训练数据集。

方法详解¶

整体框架¶

TongUI 框架包含四个阶段：教程爬取 → 教程处理 → 轨迹生成 → 数据过滤。输入是互联网上的多模态教程（视频或图文），输出是格式化的 \((q, \{o_i, r_i, a_i\}_{i=1}^T)\) 轨迹数据，其中 \(q\) 是任务查询，\(o_i\) 是截图观察，\(r_i\) 是推理思考，\(a_i\) 是执行动作。基于 ReAct 框架进行序列决策。

关键设计¶

教程爬取（Tutorial Crawling）:
做什么：从 YouTube、Bilibili、WikiHow、百度经验等平台爬取多模态 GUI 教程
核心思路：先用 brainstorming 生成种子任务关键词（如 "Chrome 修改字体大小"），再用 LLM 扩展关键词，以 "应用名 + 任务内容" 的格式检索。视频平台用 API 搜索下载，图文平台按标签爬取
设计动机：覆盖 4 个来源确保多样性，YouTube/Bilibili 提供视频教程，WikiHow/百度经验提供图文教程
教程处理（Tutorial Processing）:
做什么：将异构的多模态教程统一转化为 "文本描述 + 截图" 的结构化格式
核心思路：文本处理方面，视频用 Whisper ASR 转录音频为文本，图文直接解析网页结构；然后用 LLM 提取任务 \(q\) 和分步描述 \(\{h_1, ..., h_T\}\)。视觉处理方面，图文教程直接取图片，视频教程用 MOG2 背景减除算法检测显著变化帧作为关键帧，并按音频时间戳分段
设计动机：不同来源的数据格式差异很大，需要统一处理流水线；用 GPT-4o-mini 过滤非截图图片（如漫画、自然图像）
轨迹生成（Trajectory Generation）:
做什么：为每个步骤生成标准化的思考 \(r_i\) 和动作 \(a_i\)
核心思路：利用预训练的零样本 GUI agent（如 UI-TARS）对每个步骤的截图 \(o_i\) 和描述 \(h_i\) 进行推理，生成格式化的思考和动作。注意使用步骤描述 \(h_i\) 而非整体任务 \(q\) 作为查询输入。如果某个步骤生成失败，则将原轨迹拆分为两段独立轨迹
设计动机：用 \(h_i\) 而非 \(q\) 可以让 agent 更准确地识别当前步骤需要做什么；拆分策略避免了错误传播
多阶段数据过滤（Data Filtering）:
做什么：逐步清洗数据，从原始数据中保留 33% 的高质量轨迹
核心思路：三阶段过滤——(1) 基于 URL/视频 ID 去重；(2) LLM 判断教程是否与 GUI 任务相关；(3) 轨迹级过滤，丢弃 agent 预测 wait/call_user 的步骤，再用 Qwen2.5-VL-7B 评估轨迹质量

训练策略¶

两阶段训练：先用 GUI-Net-1M 数据微调基础 VLM，再用评测数据集的训练集进行 SFT。使用 LoRA（rank=16, alpha=32，仅 0.5% 参数），上下文窗口 8192，最多保留前 2 步观察（3 张图），每张图限制 1350 视觉 token。

实验关键数据¶

主实验 — Grounding（ScreenSpot）¶

方法	ScreenSpot Avg	ScreenSpot-V2 Avg	ScreenSpot-Pro Avg
ShowUI-2B	75.1	-	7.7
UI-TARS-7B	89.5	91.6	35.7
Qwen2.5-VL-7B (baseline)	78.6	84.0	12.5
TongUI-3B	83.6	85.5	18.0
TongUI-7B	86.0	88.7	24.7
TongUI-32B	88.5	92.1	33.1

消融实验 — 数据源扩展效果¶

配置	ScreenSpot Avg	Mind2Web Step SR
No SFT	56.5	1.7
Refined data only	68.0	40.7
+ WikiHow 50K	75.8	44.4
+ Baidu 50K	78.7	45.5
+ Video 50K	79.6	46.0
+ All data	83.6	49.5

关键发现¶

TongUI-3B 就能超越 ShowUI-2B（75.1→83.6），说明数据质量和规模的重要性
在 AndroidControl 上 TongUI-3B（73.3/91.5）甚至超过 UI-TARS-2B（68.9/89.3），表明多源数据带来的泛化优势
数据源扩展实验清晰展示了每增加一类来源都有稳定提升：仅公开数据→+WikiHow→+百度经验→+视频，ScreenSpot 从 68→76→79→80→84
在线导航（MiniWob）上 TongUI-3B（72.7）超过 ShowUI-2B（71.5），说明离线教程数据也能提升在线场景的泛化
用户研究显示过滤后数据质量评分从 3.22 提升到 4.12，接近 ShowUI 数据集的 4.26

亮点与洞察¶

数据来源创新：巧妙利用互联网上已有的教程资源而非人工标注或模型合成，这个 "站在巨人肩膀上" 的思路可以迁移到其他需要大量标注数据的 agent 任务（如代码agent、办公自动化）
多模态教程处理流水线：将视频（ASR → 关键帧提取）和图文（HTML 解析）统一到相同的轨迹格式，处理流程设计得很工程化
用零样本 agent 生成轨迹标注：不需要真实执行环境，用已有 agent 对截图进行零样本推理获得动作标注，避免了模拟器依赖
渐进式数据过滤：三阶段过滤保留 33% 数据，用户研究证实过滤后质量显著提升

局限性 / 可改进方向¶

数据一次性收集训练，无法持续学习，作者自己指出了这个不足
轨迹生成依赖 UI-TARS 的零样本能力，UI-TARS 质量直接决定了数据上限
步骤描述 \(h_i\) 作为 query 而非完整任务 \(q\)，可能导致生成的 thought 缺乏全局规划能力
33% 的数据保留率意味着 67% 被丢弃，过滤策略可能过于激进或不够精细
仅使用 LoRA 微调，全参数微调或多轮 RL 训练可能进一步提升性能

评分¶

新颖性: ⭐⭐⭐⭐ 数据收集思路有创意但不涉及算法创新，核心贡献在数据工程
实验充分度: ⭐⭐⭐⭐⭐ 7 个 offline benchmark + 1 个 online benchmark + 用户研究 + 消融
写作质量: ⭐⭐⭐⭐ 结构清晰，流程描述详尽
价值: ⭐⭐⭐⭐⭐ 完全开源的百万级 GUI 数据集对社区价值很大