Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents¶

会议: CVPR 2025
arXiv: 2505.12632
代码: 待确认
领域: Agent / Human Understanding
关键词: 移动端Agent、数据集自动生成、YouTube视频、跨平台导航、OCR场景检测

一句话总结¶

MONDAY 框架从 YouTube 教学视频自动生成移动端导航数据集——通过 OCR 场景转换检测和 GPT-4o 的 3 步动作识别流程，以人工标注 1/17 的成本（$0.34 vs $5.76/视频）构建了覆盖 iOS/Android 双平台的 313K 标注帧，预训练后 agent 在未见的 Windows Mobile 上提升 18.11%。

研究背景与动机¶

领域现状：移动端 GUI agent 的训练数据主要靠人工录制标注（如 AitW、AMEX），成本高、规模小、仅覆盖单一平台。而 YouTube 上有海量移动端教学视频（"如何在 Android 上换壁纸"），但缺乏从视频到结构化动作数据集的自动化管线。

现有痛点：(1) 人工标注成本高（$5.76/视频），无法大规模扩展；(2) 现有数据集只覆盖 iOS 或 Android 单平台，agent 泛化能力差；(3) YouTubeUI 截图的场景转换检测很难——暗黑模式切换会导致基于像素的方法失效；(4) 动作识别中 UI 元素的精确定位困难，尤其是复杂界面中的小按钮。

核心矛盾：YouTube 视频数据丰富但非结构化（无动作标注），传统标注方法无法 scale。如何自动从视频中提取精确的动作序列？

本文目标 设计一个完全自动化的管线，从 YouTube 教学视频生成高质量的移动端导航数据集，并验证该数据对 agent 跨平台泛化的价值。

切入角度：利用 OCR 文字比视觉像素更稳定的特性来检测场景变化，用 GPT-4o + Set-of-Mark 的多步推理来识别精确动作，用旁白文字辅助消歧。

核心 idea：通过 OCR 驱动的场景转换检测 + GPT-4o 多步动作识别，从 YouTube 视频自动生成大规模跨平台移动端导航数据集。

方法详解¶

整体框架¶

3 阶段流水线：(1) 视频采集与过滤（129K→20K 视频）；(2) OCR 场景转换检测（分割出界面变化帧）；(3) 3 步动作识别（场景摘要→多帧上下文动作识别→放大精修定位）。最终输出帧级别的动作标注。

关键设计¶

OCR 场景转换检测:
- 功能：检测移动端截图序列中的界面变化点，将视频分割为独立的操作步骤
- 核心思路：以 4 FPS 对手机屏幕区域（GroundingDINO 检测 @2FPS，线性插值补帧）做 PaddleOCR 文字提取，追踪相同位置的文字元素，计算 Levenshtein 距离。当 20% 以上的文字发生变化时标记为场景转换。F1 达 95.04%，比 SceneDetect（82.27%）高 12.77%
- 设计动机：基于 YUV 色差的方法对暗黑模式切换等全局外观变化敏感（F1 仅 70.86%）；而 OCR 文字内容在这些变化中是稳定的，特别适合 UI 场景
3 步动作识别（Scene Summary → Action ID → Refinement）:
- 功能：精确识别每帧的用户操作及其对应的 UI 元素坐标
- 核心思路：第 1 步——场景摘要：无标记的原始帧让 GPT-4o 描述界面布局；第 2 步——动作识别：将当前帧 + 前后 2 帧的场景摘要 + Set-of-Mark（编号的 UI 元素）+ 视频旁白一起喂给 GPT-4o，识别候选动作；第 3 步——精修定位：围绕候选 UI 元素生成放大视图，再次用 GPT-4o + SoM 精确定位。最终坐标取 UI 元素 bounding box 的中心点
- 设计动机：单步识别准确率仅 70.63%，引入时序上下文（+8.80%）和精修（+1.47%）后提升到 80.90%。旁白信息帮助 GPT-4o 在视觉相似的 UI 元素间消歧（+2.70%）
大规模视频过滤管线:
- 功能：从 129K YouTube 视频中筛选出高质量的移动端教学视频
- 核心思路：多级过滤——GroundingDINO 检测手机屏幕（过滤 Android Watch/MacOS）→ MediaPipe 检测手部遮挡（过滤手持录制视频）→ GPT-4o 采样帧确认 OS 类型。GPT-3.5 从 CommonCrawl 帖子中发现任务名称用于视频搜索
- 设计动机：YouTube 视频质量参差不齐，需要多级过滤才能确保数据质量。最终保留 20K 视频

损失函数 / 训练策略¶

Agent 预训练/微调用 LoRA，输入为当前截图 + 任务名 + 最近 4 个动作，输出下一步动作预测。选择验证 loss 最低的 checkpoint。评估标准为精确动作匹配 + 触摸/长按的交互区域验证。

实验关键数据¶

主实验¶

测试集	模型	无 MONDAY	有 MONDAY	提升
AitW (5类平均)	SeeClick	66.98%	68.47%	+1.49%
AitW (5类平均)	Llama-3.2-11B	58.96%	67.38%	+8.42%
AMEX	Llama-3.2-11B	43.74%	55.96%	+12.22%
Windows Mobile (未见)	SeeClick	38.54%	51.71%	+13.17%
Windows Mobile (未见)	Llama-3.2-11B	26.83%	50.24%	+23.41%
MONDAY 自身	SeeClick	40.66%	63.39%	+22.73%

消融实验¶

方法	全部动作准确率	触摸准确率
3 步多帧（完整）	80.90%	91.84%
2 步（无精修）	79.43%	89.97%
1 步（直接识别）	70.63%	74.67%
无旁白信息	78.20%	87.64%
单帧（无时序上下文）	77.22%	89.30%

关键发现¶

跨平台泛化效果惊人：在 Windows Mobile（完全未见的平台）上平均提升 18.11%，说明 iOS+Android 双平台数据的多样性让 agent 学到了平台无关的 UI 理解能力
OCR 场景检测远优于视觉方法：F1 95.04% vs SceneDetect 82.27%，证明 UI 中文字是最稳定的信号
UI 元素检测几乎完美：Hit Ratio 99.87% vs OmniParser 91.83%，得益于移动端特定启发式过滤
成本效率极高：$0.34/视频 vs 人工 $5.76/视频，成本降低 17 倍
Llama-3.2 的受益大于 SeeClick：可能因为 LLama 的基础 UI 理解弱，从 MONDAY 的多样数据中获益更多

亮点与洞察¶

OCR 驱动的场景转换检测是一个非常实用的创新——文字内容比像素在 UI 环境中更稳定，可以推广到任何 UI 视频分析任务
3 步动作识别的设计思想（先看全局→上下文推理→放大精修）模仿了人类观看教学视频时的认知过程，每步贡献清晰可量化
YouTube 视频是 agent 训练的宝藏：20K 视频 = 313K 标注帧，成本极低，且自然覆盖极多样的应用和操作场景，这比人工构造数据集有质的优势

局限与展望¶

依赖 GPT-4o 做动作识别，成本和 API 限制可能影响更大规模的数据生成
多级过滤丢了大量视频（129K→20K），可能遗漏了有价值的数据
20% 文字变化阈值是经验设定，对其他语言/脚本的适用性未验证
教学视频的动作分布偏向简单操作（Touch 79.83%），复杂手势（Multi-touch、Zoom）样本极少
精修步骤需要生成放大视图，增加计算开销

评分¶

新颖性: ⭐⭐⭐⭐ OCR 场景检测和 YouTube→数据集的自动化管线都有新意
实验充分度: ⭐⭐⭐⭐⭐ 数据集构建各组件的单独评估 + 多 agent/多平台的下游验证 + 详细消融
写作质量: ⭐⭐⭐⭐ 管线描述清晰，统计信息完整
价值: ⭐⭐⭐⭐ 实用价值高，数据集对移动端 agent 社区有直接帮助