Watch and Learn: Learning to Use Computers from Online Videos¶

会议: CVPR 2026
arXiv: 2510.04673
代码: 暂无
领域: LLM Agent / 计算机使用
关键词: computer-using agent, inverse dynamics model, trajectory generation, YouTube tutorials, GUI automation

一句话总结¶

提出 Watch & Learn 框架, 通过逆动力学模型 (IDM) 将 YouTube 教程视频自动转化为可执行的 UI 轨迹数据 (53K+ 轨迹, 免去人工标注), 基于此数据增强 CUA 能力, 在 OSWorld 上让 Qwen 2.5VL-7B 提升 +11.1%, UI-TARS-1.5-7B 提升 +3.8%.

研究背景与动机¶

领域现状: 计算机使用代理 (CUA) 需要大量高质量 UI 操作轨迹数据训练, 但手工标注成本约 $1.45/任务.
现有痛点: (a) 人工标注不可扩展; (b) 启发式解析方法准确率低 (TongUI: 72.3%); (c) YouTube 教程视频是丰富但未被利用的数据源.
核心矛盾: Web 上有海量教程视频展示了真实的计算机操作, 但没有工具能准确地从视频中提取出动作序列.
本文要解决什么: 构建高准确率的 IDM 从视频中自动提取 UI 操作轨迹, 并验证这些轨迹能有效训练 CUA.
切入角度: 用 SigLIP-2 视觉编码器 + Transformer 的逆动力学模型, 从连续屏幕截图推断用户动作.
核心idea一句话: 用 91.7% 准确率的逆动力学模型自动标注 YouTube 教程视频中的 UI 操作, 转化为 53K 可执行轨迹.

方法详解¶

整体框架¶

四阶段: (1) 构建 600K+ 状态转移语料训练 IDM; (2) 从 YouTube 检索并筛选教程视频; (3) 用 IDM 预测视频中的动作序列; (4) 用生成的轨迹做 ICL 或 SFT 增强 CUA.

关键设计¶

逆动力学模型 (IDM):
做什么: 从连续两帧屏幕截图推断用户执行了什么动作
核心思路: SigLIP-2 视觉编码器 + 4 层 Transformer + 3 个专用头 (动作分类/坐标预测/文本生成)
准确率: 91.7% (vs TongUI 72.3%), 直接决定了下游性能
任务感知视频检索:
做什么: 从 YouTube 检索与目标任务相关的教程视频
核心思路: 覆盖 69 个应用/7 个类别; 用光流过滤静态帧
轨迹生成与质量控制:
做什么: 将视频转化为结构化的 (状态, 动作) 轨迹
规模: 53,125 高质量轨迹

训练策略¶

IDM 在 600K 人工交互数据上训练
下游使用方式: ICL (提供示例轨迹) 或 SFT (微调模型)

实验关键数据¶

主实验: OSWorld-Verified¶

模型	方式	基线	+W&L	提升
Gemini 2.5 Flash	ICL	19.0%	22.0%	+3.0%
Claude 4 Sonnet	ICL	43.9%	45.5%	+1.6%
Qwen 2.5VL 7B	SFT	1.9%	13.0%	+11.1%
UI-TARS-1.5-7B	SFT	27.3%	31.1%	+3.8%

消融实验: ICL 组件 (Gemini)¶

配置	成功率
Frames only	19.0%
+ Actions	20.1%
+ Actions + Reasoning	22.0%

关键发现¶

IDM 准确率 (91.7% vs 72.3%) 直接决定了下游性能
SFT 增益远大于 ICL (Qwen: +11.1% vs 最佳 ICL +3.0%)
自动生成的轨迹跨 OS 平台泛化, 其他方法退化

亮点与洞察¶

YouTube 教程是免费的 CUA 训练数据: 无需人工标注, 仅需准确的 IDM
IDM 准确率是关键: 19.4% 的准确率差距直接导致下游性能差异
ICL + 推理链最有效: 不仅给示例帧和动作, 还附加推理过程效果最好

局限性 / 可改进方向¶

YouTube 视频质量参差不齐, 光流过滤可能丢失有效内容
IDM 训练依赖已有的 600K 标注数据, 并非完全零标注
仅覆盖桌面 OS 操作, 未扩展到移动端

评分¶

新颖性: ⭐⭐⭐⭐ 用 IDM 从视频自动提取轨迹是新颖的数据获取范式
实验充分度: ⭐⭐⭐⭐ OSWorld + 多模型验证 + ICL/SFT 两种模式
写作质量: ⭐⭐⭐⭐ 框架清晰
价值: ⭐⭐⭐⭐⭐ 解决了 CUA 训练数据瓶颈, 实用价值高