OS Agents: A Survey on MLLM-based Agents for Computer, Phone and Browser Use¶

会议: ACL 2025 (Long Paper)
arXiv: 见ACL Anthology
网站: https://os-agent-survey.github.io/
领域: Agent / 多模态VLM
关键词: OS Agent, GUI Agent, MLLM, 自主操作, 计算机使用, 手机控制, 浏览器自动化

一句话总结¶

首个系统性综述基于（多模态）大语言模型的操作系统智能体（OS Agents），覆盖基础概念、构建方法（基础模型+Agent框架）、评估基准和商业产品，全面梳理了从CogAgent到Anthropic Computer Use等50+工作的技术演进。

背景与动机¶

OS Agent是指能像人类一样使用电脑、手机和浏览器的AI智能体——通过GUI或CLI操作完成用户指定的任务。随着GPT-4V、Claude、Gemini等MLLM的涌现，OS Agent从概念变为现实：OpenAI Operator、Anthropic Computer Use、Apple Intelligence、Google Project Mariner等商业产品相继发布。但学术研究高度分散，缺乏统一的综述和分类框架。

核心框架¶

OS Agent基本组成¶

环境（Environment）: 计算机、手机、浏览器——三大操作平台
观察空间（Observation Space）: 屏幕截图（视觉）、HTML代码（结构化文本）、可访问性树（语义化描述）
动作空间（Action Space）: 点击、输入、滑动、长按、导航等操作

三大核心能力¶

理解（Understanding）: 理解复杂的GUI界面，识别小图标、密集文本、多层嵌套的界面元素
规划（Planning）: 将复杂任务分解为子任务序列，根据环境反馈动态调整计划
定位（Grounding）: 将文本指令映射到具体的屏幕元素和可执行动作（坐标、参数）

构建方法¶

基础模型¶

现有LLM/MLLM: 直接用GPT-4V、Claude等作为backbone
MLLM + 额外视觉模块: CogAgent（高低分辨率双编码器）、Ferret-UI等
定制架构: SeeClick、OS-Atlas等专门针对GUI设计的模型
训练策略: 预训练（大规模GUI数据）、SFT（GUI任务指令数据）、RL（在线交互反馈）

Agent框架¶

观察处理: Set-of-Mark提示、HTML解析、A11y Tree、OCR辅助
记忆机制: 短期工作记忆（动作历史）、长期经验记忆（知识库）
规划策略: 目标分解、反思（Reflexion）、任务图规划
动作定位: 坐标预测、元素ID匹配、函数调用

评估基准¶

平台	代表性Benchmark	特点
手机	AndroidWorld, AITW	真实手机环境/模拟器
电脑	OSWorld, WindowsAgentArena	跨平台、真实OS
浏览器	Mind2Web, WebArena, WebVoyager	真实网页交互
跨平台	AssistantBench	复杂跨应用任务

商业产品¶

OpenAI Operator: 任务自动化服务
Anthropic Computer Use: Claude直接操作用户电脑
Apple Intelligence: 集成Siri+设备操作
Google Project Mariner: Chrome扩展形式的Agent

关键挑战与未来方向¶

安全与隐私: Agent直接操作用户设备，面临prompt injection、对抗攻击、数据泄露等风险
个性化与自进化: Agent需要记住用户偏好、从交互中持续学习，但多模态记忆管理是个难题
GUI理解瓶颈: 高分辨率屏幕中的小元素检测仍然困难，尤其是复杂布局和动态内容
长步骤推理: 复杂任务可能需要10-50步操作，错误累积导致成功率急剧下降
泛化性: 在一个App上训练的Agent难以迁移到其他App

亮点¶

全景式覆盖: 从基础概念到商业产品，涵盖了OS Agent领域的方方面面
分类框架清晰: 按平台（手机/电脑/浏览器）、按方法（基础模型/框架）、按能力（理解/规划/定位）三维度组织
时间线完整: 从2023年早期工作到2025年最新进展，包括50+学术工作和4大商业产品
挑战分析深入: 安全、个性化、自进化等方向的分析有前瞻性

局限性 / 可改进方向¶

作为综述，缺乏统一的实验对比（不同benchmark的结果难以横向比较）
对"如何评估OS Agent的实际可用性"讨论不够深入
未深入讨论Agent的计算成本和延迟问题（每步都需要MLLM推理）
多Agent协作和复杂工作流的讨论篇幅有限

启发与关联¶

GUI理解本质上是一种特殊的文档理解——与mPLUG-DocOwl2的技术可以互通
OS Agent的"定位"能力可以受益于VLM的grounding能力提升（如visual evidence prompting）
Agent的长步骤推理问题可以用tree search/MCTS方法缓解
安全问题是商业化的核心障碍——prompt injection防御是一个重要研究方向

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性OS Agent综述，分类框架有价值
实验充分度: ⭐⭐⭐ 综述性质，无原创实验
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，覆盖全面，图表信息密度高
价值: ⭐⭐⭐⭐⭐ 对OS Agent领域的入门和全局把握极有帮助