AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents¶

会议: ACL 2025 (Long Paper)
arXiv: 2410.24024
代码: https://github.com/THUDM/Android-Lab
领域: Agent / 多模态VLM
关键词: Android Agent, GUI自动化, 手机Agent, Benchmark, 指令微调

一句话总结¶

提出AndroidLab——首个统一训练和评估Android Agent的系统性框架，包含9个App上的138个可复现任务，同时支持纯文本（XML模式）和多模态（SoM模式）模型，并构建Android Instruct数据集（94.3k步骤），将开源LLM的成功率从4.59%提升至21.50%。

背景与动机¶

Android Agent研究面临三大问题：(1) 评估不系统——已有benchmark大多只测闭源模型，且环境不可复现；(2) 缺乏统一框架——LLM和LMM使用不同的动作空间和观察模式，无法公平比较；(3) 开源模型差距大——开源模型在手机操作任务上success rate极低（~5%），缺乏高质量训练数据。

核心问题¶

如何建立一个系统性框架，使得Agent的训练数据收集、模型评估和跨模态比较在统一标准下进行？

方法详解¶

整体框架¶

AndroidLab = 统一操作环境 + 可复现Benchmark + Android Instruct训练数据集。

关键设计¶

统一操作模式:
XML模式（纯文本LLM）: Agent接收UI树的XML描述，输出动作
SoM模式（多模态LMM）: Agent接收带Set-of-Mark标注的屏幕截图，输出动作
两种模式共享完全相同的动作空间（Tap/Swipe/Type/Long Press/Press Key/Finish），确保公平比较
每种模式都可用ReAct或SeeAct推理框架
可复现Benchmark:
9个预安装App（Clock, Settings, Contacts, Calendar, Bluecoins, Pi Music, MAPS.ME, Zoom, Cantook）
138个任务，每个任务拆分为多个子目标（sub-goals），通过UI树结构匹配验证完成度
使用Android虚拟设备+离线数据，消除网络和时间依赖
评估指标:
Success Rate: 整体任务完成率
Sub-Goal Success Rate: 子目标完成率（更细粒度）
Reversed Redundancy: 衡量操作效率（冗余步骤比例）
Reasonable Operation: 合理操作占比
Android Instruct数据集: 在线标注工具收集10.5k条轨迹、94.3k步操作。用于SFT的子集包含726条轨迹、6208步操作，同时包含XML和SoM格式。

损失函数 / 训练策略¶

标准自回归SFT损失
训练6个开源模型：Llama-3.1-8B, GLM-4-9B, Qwen2-7B（LLM）+ Qwen2-VL-7B, CogVLM2, Llama-3.2-11B-Vision（LMM）

实验关键数据¶

闭源模型成绩:

模型	模式	Success Rate
GPT-4o	XML+ReAct	31.16%
GPT-4o	SoM+SeeAct	31.16%
Claude-3.5-Sonnet	SoM+SeeAct	~27%
Gemini-1.5-Pro	XML+ReAct	~22%

开源模型SFT前后对比:

模型	SFT前	SFT后	提升
LLM平均	4.59%	21.50%	+16.91%
LMM平均	1.93%	13.28%	+11.35%
Llama-3.1-8B	3.2%	24.6%	+21.4%
Qwen2-VL-7B	4.3%	17.4%	+13.1%

SFT后的开源7B模型接近闭源GPT-4o约2/3的成功率！

消融实验要点¶

XML vs SoM: XML模式整体略优于SoM（文本信息更精确），但SoM模式更适合视觉密集场景
ReAct vs SeeAct: ReAct框架整体更好（显式推理链有帮助）
SFT效果: 不仅提升成功率，还显著降低操作冗余度、提高合理操作比例
跨App泛化: SFT后在未见过的App上也有一定泛化能力
LLM vs LMM: LLM SFT后成绩更高（21.5% > 13.3%），因为XML信息更精确

亮点¶

公平统一: 首次在完全相同的动作空间下比较LLM和LMM的Agent能力
可复现: 虚拟设备+离线数据，任何人都可以复现实验
数据+模型+评估全开源: 94.3k步训练数据、6个微调模型、评估框架全部公开
SFT效果显著: 小量高质量数据（6208步）就能让7B模型接近GPT-4o的66%性能

局限性 / 可改进方向¶

仅9个App、138个任务，覆盖的应用场景有限
最高成功率仅31.16%（GPT-4o），距离实用水平（>80%）差距很大
未引入强化学习（RL）——在线交互反馈可能进一步提升性能
SoM模式下LMM表现不如LLM的XML模式，说明视觉定位仍是瓶颈
多步骤任务的错误传播问题未深入探讨

与相关工作的对比¶

vs AndroidWorld: AndroidWorld有116个任务但不支持训练数据构建；AndroidLab统一了训练和评估
vs AITW: AITW是静态数据集（无在线交互），AndroidLab支持真实在线交互
vs B-MOCA: B-MOCA标准化了虚拟设备但任务多样性有限

启发与关联¶

Agent SFT数据的质量（而非数量）是关键——6208步就有显著提升
LMM在GUI定位（grounding）上的弱势与VLM幻觉问题相关——Visual Evidence Prompting可能也对Agent有帮助
与OS Agents Survey互为参考：Survey提供全景视角，AndroidLab提供具体训练/评估框架

评分¶

新颖性: ⭐⭐⭐⭐ 统一框架和公平比较的设计思路有价值
实验充分度: ⭐⭐⭐⭐⭐ 17个模型（6开源+11闭源）、4种操作模式、详细消融
写作质量: ⭐⭐⭐⭐ 图表信息密度高，图1+图2就能理解全文要点
价值: ⭐⭐⭐⭐⭐ 全套开源（环境+数据+模型+评估），对Agent社区贡献极大