跳转至

Watch and Learn: Learning to Use Computers from Online Videos

会议: CVPR 2026
arXiv: 2510.04673
代码: 暂无
领域: LLM Agent / 计算机使用
关键词: computer-using agent, inverse dynamics model, trajectory generation, YouTube tutorials, GUI automation

一句话总结

提出 Watch & Learn 框架, 通过逆动力学模型 (IDM) 将 YouTube 教程视频自动转化为可执行的 UI 轨迹数据 (53K+ 轨迹, 免去人工标注), 基于此数据增强 CUA 能力, 在 OSWorld 上让 Qwen 2.5VL-7B 提升 +11.1%, UI-TARS-1.5-7B 提升 +3.8%.

研究背景与动机

  1. 领域现状: 计算机使用代理 (CUA) 需要大量高质量 UI 操作轨迹数据训练, 但手工标注成本约 $1.45/任务.
  2. 现有痛点: (a) 人工标注不可扩展; (b) 启发式解析方法准确率低 (TongUI: 72.3%); (c) YouTube 教程视频是丰富但未被利用的数据源.
  3. 核心矛盾: Web 上有海量教程视频展示了真实的计算机操作, 但没有工具能准确地从视频中提取出动作序列.
  4. 本文要解决什么: 构建高准确率的 IDM 从视频中自动提取 UI 操作轨迹, 并验证这些轨迹能有效训练 CUA.
  5. 切入角度: 用 SigLIP-2 视觉编码器 + Transformer 的逆动力学模型, 从连续屏幕截图推断用户动作.
  6. 核心idea一句话: 用 91.7% 准确率的逆动力学模型自动标注 YouTube 教程视频中的 UI 操作, 转化为 53K 可执行轨迹.

方法详解

整体框架

四阶段: (1) 构建 600K+ 状态转移语料训练 IDM; (2) 从 YouTube 检索并筛选教程视频; (3) 用 IDM 预测视频中的动作序列; (4) 用生成的轨迹做 ICL 或 SFT 增强 CUA.

关键设计

  1. 逆动力学模型 (IDM):
  2. 做什么: 从连续两帧屏幕截图推断用户执行了什么动作
  3. 核心思路: SigLIP-2 视觉编码器 + 4 层 Transformer + 3 个专用头 (动作分类/坐标预测/文本生成)
  4. 准确率: 91.7% (vs TongUI 72.3%), 直接决定了下游性能

  5. 任务感知视频检索:

  6. 做什么: 从 YouTube 检索与目标任务相关的教程视频
  7. 核心思路: 覆盖 69 个应用/7 个类别; 用光流过滤静态帧

  8. 轨迹生成与质量控制:

  9. 做什么: 将视频转化为结构化的 (状态, 动作) 轨迹
  10. 规模: 53,125 高质量轨迹

训练策略

  • IDM 在 600K 人工交互数据上训练
  • 下游使用方式: ICL (提供示例轨迹) 或 SFT (微调模型)

实验关键数据

主实验: OSWorld-Verified

模型 方式 基线 +W&L 提升
Gemini 2.5 Flash ICL 19.0% 22.0% +3.0%
Claude 4 Sonnet ICL 43.9% 45.5% +1.6%
Qwen 2.5VL 7B SFT 1.9% 13.0% +11.1%
UI-TARS-1.5-7B SFT 27.3% 31.1% +3.8%

消融实验: ICL 组件 (Gemini)

配置 成功率
Frames only 19.0%
+ Actions 20.1%
+ Actions + Reasoning 22.0%

关键发现

  • IDM 准确率 (91.7% vs 72.3%) 直接决定了下游性能
  • SFT 增益远大于 ICL (Qwen: +11.1% vs 最佳 ICL +3.0%)
  • 自动生成的轨迹跨 OS 平台泛化, 其他方法退化

亮点与洞察

  • YouTube 教程是免费的 CUA 训练数据: 无需人工标注, 仅需准确的 IDM
  • IDM 准确率是关键: 19.4% 的准确率差距直接导致下游性能差异
  • ICL + 推理链最有效: 不仅给示例帧和动作, 还附加推理过程效果最好

局限性 / 可改进方向

  • YouTube 视频质量参差不齐, 光流过滤可能丢失有效内容
  • IDM 训练依赖已有的 600K 标注数据, 并非完全零标注
  • 仅覆盖桌面 OS 操作, 未扩展到移动端

相关工作与启发

  • vs ShowUI/OS-Atlas: 依赖人工标注, 成本高. W&L 自动化标注可扩展
  • vs TongUI: 启发式解析准确率仅 72.3%, IDM 达 91.7%

评分

  • 新颖性: ⭐⭐⭐⭐ 用 IDM 从视频自动提取轨迹是新颖的数据获取范式
  • 实验充分度: ⭐⭐⭐⭐ OSWorld + 多模型验证 + ICL/SFT 两种模式
  • 写作质量: ⭐⭐⭐⭐ 框架清晰
  • 价值: ⭐⭐⭐⭐⭐ 解决了 CUA 训练数据瓶颈, 实用价值高