Watch and Learn: Learning to Use Computers from Online Videos¶
会议: CVPR 2026
arXiv: 2510.04673
代码: 暂无
领域: LLM Agent / 计算机使用
关键词: computer-using agent, inverse dynamics model, trajectory generation, YouTube tutorials, GUI automation
一句话总结¶
提出 Watch & Learn 框架, 通过逆动力学模型 (IDM) 将 YouTube 教程视频自动转化为可执行的 UI 轨迹数据 (53K+ 轨迹, 免去人工标注), 基于此数据增强 CUA 能力, 在 OSWorld 上让 Qwen 2.5VL-7B 提升 +11.1%, UI-TARS-1.5-7B 提升 +3.8%.
研究背景与动机¶
- 领域现状: 计算机使用代理 (CUA) 需要大量高质量 UI 操作轨迹数据训练, 但手工标注成本约 $1.45/任务.
- 现有痛点: (a) 人工标注不可扩展; (b) 启发式解析方法准确率低 (TongUI: 72.3%); (c) YouTube 教程视频是丰富但未被利用的数据源.
- 核心矛盾: Web 上有海量教程视频展示了真实的计算机操作, 但没有工具能准确地从视频中提取出动作序列.
- 本文要解决什么: 构建高准确率的 IDM 从视频中自动提取 UI 操作轨迹, 并验证这些轨迹能有效训练 CUA.
- 切入角度: 用 SigLIP-2 视觉编码器 + Transformer 的逆动力学模型, 从连续屏幕截图推断用户动作.
- 核心idea一句话: 用 91.7% 准确率的逆动力学模型自动标注 YouTube 教程视频中的 UI 操作, 转化为 53K 可执行轨迹.
方法详解¶
整体框架¶
四阶段: (1) 构建 600K+ 状态转移语料训练 IDM; (2) 从 YouTube 检索并筛选教程视频; (3) 用 IDM 预测视频中的动作序列; (4) 用生成的轨迹做 ICL 或 SFT 增强 CUA.
关键设计¶
- 逆动力学模型 (IDM):
- 做什么: 从连续两帧屏幕截图推断用户执行了什么动作
- 核心思路: SigLIP-2 视觉编码器 + 4 层 Transformer + 3 个专用头 (动作分类/坐标预测/文本生成)
-
准确率: 91.7% (vs TongUI 72.3%), 直接决定了下游性能
-
任务感知视频检索:
- 做什么: 从 YouTube 检索与目标任务相关的教程视频
-
核心思路: 覆盖 69 个应用/7 个类别; 用光流过滤静态帧
-
轨迹生成与质量控制:
- 做什么: 将视频转化为结构化的 (状态, 动作) 轨迹
- 规模: 53,125 高质量轨迹
训练策略¶
- IDM 在 600K 人工交互数据上训练
- 下游使用方式: ICL (提供示例轨迹) 或 SFT (微调模型)
实验关键数据¶
主实验: OSWorld-Verified¶
| 模型 | 方式 | 基线 | +W&L | 提升 |
|---|---|---|---|---|
| Gemini 2.5 Flash | ICL | 19.0% | 22.0% | +3.0% |
| Claude 4 Sonnet | ICL | 43.9% | 45.5% | +1.6% |
| Qwen 2.5VL 7B | SFT | 1.9% | 13.0% | +11.1% |
| UI-TARS-1.5-7B | SFT | 27.3% | 31.1% | +3.8% |
消融实验: ICL 组件 (Gemini)¶
| 配置 | 成功率 |
|---|---|
| Frames only | 19.0% |
| + Actions | 20.1% |
| + Actions + Reasoning | 22.0% |
关键发现¶
- IDM 准确率 (91.7% vs 72.3%) 直接决定了下游性能
- SFT 增益远大于 ICL (Qwen: +11.1% vs 最佳 ICL +3.0%)
- 自动生成的轨迹跨 OS 平台泛化, 其他方法退化
亮点与洞察¶
- YouTube 教程是免费的 CUA 训练数据: 无需人工标注, 仅需准确的 IDM
- IDM 准确率是关键: 19.4% 的准确率差距直接导致下游性能差异
- ICL + 推理链最有效: 不仅给示例帧和动作, 还附加推理过程效果最好
局限性 / 可改进方向¶
- YouTube 视频质量参差不齐, 光流过滤可能丢失有效内容
- IDM 训练依赖已有的 600K 标注数据, 并非完全零标注
- 仅覆盖桌面 OS 操作, 未扩展到移动端
相关工作与启发¶
- vs ShowUI/OS-Atlas: 依赖人工标注, 成本高. W&L 自动化标注可扩展
- vs TongUI: 启发式解析准确率仅 72.3%, IDM 达 91.7%
评分¶
- 新颖性: ⭐⭐⭐⭐ 用 IDM 从视频自动提取轨迹是新颖的数据获取范式
- 实验充分度: ⭐⭐⭐⭐ OSWorld + 多模型验证 + ICL/SFT 两种模式
- 写作质量: ⭐⭐⭐⭐ 框架清晰
- 价值: ⭐⭐⭐⭐⭐ 解决了 CUA 训练数据瓶颈, 实用价值高