Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents¶
会议: CVPR 2025
arXiv: 2505.12632
代码: 待确认
领域: Agent / Human Understanding
关键词: 移动端Agent、数据集自动生成、YouTube视频、跨平台导航、OCR场景检测
一句话总结¶
MONDAY 框架从 YouTube 教学视频自动生成移动端导航数据集——通过 OCR 场景转换检测和 GPT-4o 的 3 步动作识别流程,以人工标注 1/17 的成本($0.34 vs $5.76/视频)构建了覆盖 iOS/Android 双平台的 313K 标注帧,预训练后 agent 在未见的 Windows Mobile 上提升 18.11%。
研究背景与动机¶
领域现状:移动端 GUI agent 的训练数据主要靠人工录制标注(如 AitW、AMEX),成本高、规模小、仅覆盖单一平台。而 YouTube 上有海量移动端教学视频("如何在 Android 上换壁纸"),但缺乏从视频到结构化动作数据集的自动化管线。
现有痛点:(1) 人工标注成本高($5.76/视频),无法大规模扩展;(2) 现有数据集只覆盖 iOS 或 Android 单平台,agent 泛化能力差;(3) YouTubeUI 截图的场景转换检测很难——暗黑模式切换会导致基于像素的方法失效;(4) 动作识别中 UI 元素的精确定位困难,尤其是复杂界面中的小按钮。
核心矛盾:YouTube 视频数据丰富但非结构化(无动作标注),传统标注方法无法 scale。如何自动从视频中提取精确的动作序列?
本文目标 设计一个完全自动化的管线,从 YouTube 教学视频生成高质量的移动端导航数据集,并验证该数据对 agent 跨平台泛化的价值。
切入角度:利用 OCR 文字比视觉像素更稳定的特性来检测场景变化,用 GPT-4o + Set-of-Mark 的多步推理来识别精确动作,用旁白文字辅助消歧。
核心 idea:通过 OCR 驱动的场景转换检测 + GPT-4o 多步动作识别,从 YouTube 视频自动生成大规模跨平台移动端导航数据集。
方法详解¶
整体框架¶
3 阶段流水线:(1) 视频采集与过滤(129K→20K 视频);(2) OCR 场景转换检测(分割出界面变化帧);(3) 3 步动作识别(场景摘要→多帧上下文动作识别→放大精修定位)。最终输出帧级别的动作标注。
关键设计¶
-
OCR 场景转换检测:
- 功能:检测移动端截图序列中的界面变化点,将视频分割为独立的操作步骤
- 核心思路:以 4 FPS 对手机屏幕区域(GroundingDINO 检测 @2FPS,线性插值补帧)做 PaddleOCR 文字提取,追踪相同位置的文字元素,计算 Levenshtein 距离。当 20% 以上的文字发生变化时标记为场景转换。F1 达 95.04%,比 SceneDetect(82.27%)高 12.77%
- 设计动机:基于 YUV 色差的方法对暗黑模式切换等全局外观变化敏感(F1 仅 70.86%);而 OCR 文字内容在这些变化中是稳定的,特别适合 UI 场景
-
3 步动作识别(Scene Summary → Action ID → Refinement):
- 功能:精确识别每帧的用户操作及其对应的 UI 元素坐标
- 核心思路:第 1 步——场景摘要:无标记的原始帧让 GPT-4o 描述界面布局;第 2 步——动作识别:将当前帧 + 前后 2 帧的场景摘要 + Set-of-Mark(编号的 UI 元素)+ 视频旁白一起喂给 GPT-4o,识别候选动作;第 3 步——精修定位:围绕候选 UI 元素生成放大视图,再次用 GPT-4o + SoM 精确定位。最终坐标取 UI 元素 bounding box 的中心点
- 设计动机:单步识别准确率仅 70.63%,引入时序上下文(+8.80%)和精修(+1.47%)后提升到 80.90%。旁白信息帮助 GPT-4o 在视觉相似的 UI 元素间消歧(+2.70%)
-
大规模视频过滤管线:
- 功能:从 129K YouTube 视频中筛选出高质量的移动端教学视频
- 核心思路:多级过滤——GroundingDINO 检测手机屏幕(过滤 Android Watch/MacOS)→ MediaPipe 检测手部遮挡(过滤手持录制视频)→ GPT-4o 采样帧确认 OS 类型。GPT-3.5 从 CommonCrawl 帖子中发现任务名称用于视频搜索
- 设计动机:YouTube 视频质量参差不齐,需要多级过滤才能确保数据质量。最终保留 20K 视频
损失函数 / 训练策略¶
Agent 预训练/微调用 LoRA,输入为当前截图 + 任务名 + 最近 4 个动作,输出下一步动作预测。选择验证 loss 最低的 checkpoint。评估标准为精确动作匹配 + 触摸/长按的交互区域验证。
实验关键数据¶
主实验¶
| 测试集 | 模型 | 无 MONDAY | 有 MONDAY | 提升 |
|---|---|---|---|---|
| AitW (5类平均) | SeeClick | 66.98% | 68.47% | +1.49% |
| AitW (5类平均) | Llama-3.2-11B | 58.96% | 67.38% | +8.42% |
| AMEX | Llama-3.2-11B | 43.74% | 55.96% | +12.22% |
| Windows Mobile (未见) | SeeClick | 38.54% | 51.71% | +13.17% |
| Windows Mobile (未见) | Llama-3.2-11B | 26.83% | 50.24% | +23.41% |
| MONDAY 自身 | SeeClick | 40.66% | 63.39% | +22.73% |
消融实验¶
| 方法 | 全部动作准确率 | 触摸准确率 |
|---|---|---|
| 3 步多帧(完整) | 80.90% | 91.84% |
| 2 步(无精修) | 79.43% | 89.97% |
| 1 步(直接识别) | 70.63% | 74.67% |
| 无旁白信息 | 78.20% | 87.64% |
| 单帧(无时序上下文) | 77.22% | 89.30% |
关键发现¶
- 跨平台泛化效果惊人:在 Windows Mobile(完全未见的平台)上平均提升 18.11%,说明 iOS+Android 双平台数据的多样性让 agent 学到了平台无关的 UI 理解能力
- OCR 场景检测远优于视觉方法:F1 95.04% vs SceneDetect 82.27%,证明 UI 中文字是最稳定的信号
- UI 元素检测几乎完美:Hit Ratio 99.87% vs OmniParser 91.83%,得益于移动端特定启发式过滤
- 成本效率极高:$0.34/视频 vs 人工 $5.76/视频,成本降低 17 倍
- Llama-3.2 的受益大于 SeeClick:可能因为 LLama 的基础 UI 理解弱,从 MONDAY 的多样数据中获益更多
亮点与洞察¶
- OCR 驱动的场景转换检测是一个非常实用的创新——文字内容比像素在 UI 环境中更稳定,可以推广到任何 UI 视频分析任务
- 3 步动作识别的设计思想(先看全局→上下文推理→放大精修)模仿了人类观看教学视频时的认知过程,每步贡献清晰可量化
- YouTube 视频是 agent 训练的宝藏:20K 视频 = 313K 标注帧,成本极低,且自然覆盖极多样的应用和操作场景,这比人工构造数据集有质的优势
局限与展望¶
- 依赖 GPT-4o 做动作识别,成本和 API 限制可能影响更大规模的数据生成
- 多级过滤丢了大量视频(129K→20K),可能遗漏了有价值的数据
- 20% 文字变化阈值是经验设定,对其他语言/脚本的适用性未验证
- 教学视频的动作分布偏向简单操作(Touch 79.83%),复杂手势(Multi-touch、Zoom)样本极少
- 精修步骤需要生成放大视图,增加计算开销
相关工作与启发¶
- vs AitW/AMEX: 人工标注的单平台数据集;MONDAY 是自动生成的双平台数据,预训练后在两个数据集上都有提升
- vs OmniParser: OmniParser 的 UI 元素检测 Hit Ratio 91.83%,MONDAY 的方法 99.87%,得益于移动端特定的启发式规则
- 为 GUI agent 社区提供了一个低成本 scaling 的范例——不必依赖人工标注
评分¶
- 新颖性: ⭐⭐⭐⭐ OCR 场景检测和 YouTube→数据集的自动化管线都有新意
- 实验充分度: ⭐⭐⭐⭐⭐ 数据集构建各组件的单独评估 + 多 agent/多平台的下游验证 + 详细消融
- 写作质量: ⭐⭐⭐⭐ 管线描述清晰,统计信息完整
- 价值: ⭐⭐⭐⭐ 实用价值高,数据集对移动端 agent 社区有直接帮助
相关论文¶
- [ICCV 2025] GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices
- [CVPR 2025] ShowMak3r++: Compositional Entertainment Video Reconstruction
- [CVPR 2025] GigaHands: A Massive Annotated Dataset of Bimanual Hand Activities
- [CVPR 2025] EgoPressure: A Dataset for Hand Pressure and Pose Estimation in Egocentric Vision
- [CVPR 2025] PoseBH: Prototypical Multi-Dataset Training Beyond Human Pose Estimation