AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents¶

论文信息¶

提出AndroidLab——一个系统性的Android智能体评测与训练框架，包含统一的操作环境、138个任务的可复现基准测试和94.3K步骤的指令数据集，通过微调将开源LLM成功率从4.59%提升至21.50%。

领域现状: 使用LLM/LMM作为移动端自主智能体的研究日益增多，但现有训练和评估工作缺乏系统性——几乎所有基准仅测试闭源模型的提示工程效果。
已有基准局限: 静态基准（PixelHelp、AITW）无法交互；动态基准（AndroidEnv、AndroidWorld）可复现性差或不支持构建微调训练数据；且无统一框架同时比较开源与闭源、文本与多模态模型。
关键需求: 需要一个统一的框架，同时支持(1)公平比较不同模态模型，(2)可复现评估，(3)高效构建训练数据以提升开源模型。
核心动机: 通过提示工程提升的效果有限（复杂推理框架仅带来边际改进但推理时间大幅增加），微调小规模开源模型才能缩小与闭源模型的差距。

AndroidLab包含三个组件：(1) 标准化操作环境，统一LLM和LMM的动作空间；(2) 可复现基准测试，基于Android虚拟设备(AVD)预设9个应用的138个任务；(3) Android Instruct训练数据集，包含10.5K操作轨迹和94.3K步骤。

统一双模态操作模式: XML模式（文本输入LLM）和SoM模式（屏幕截图+标注的多模态LMM），确保两种模式共享完全相同的动作空间和操作对象，实现公平比较
子目标分解评估: 将每个任务拆分为多个子目标，通过UI树结构匹配独立验证每个子目标的完成状态，避免传统操作路径匹配的局限性
可复现离线环境: 所有应用预装在AVD镜像中离线运行，固定时间和地理位置，消除外部网络和时间依赖

6种基本操作（Tap、Swipe、Type、Long Press、Home、Back）+ 1种终止操作（Finish），支持返回执行结果。

任务派生扩展 → LLM/LMM自探索（自动生成轨迹） → 人工标注（4步流程：可行性检查→熟悉界面→执行记录→交叉验证）

模式	模型	成功率(SR)	子目标SR	反向冗余比	合理操作比
XML	GPT-4-1106-Preview	31.16%	38.21%	66.34	86.24
XML	GPT-4o	25.36%	30.56%	107.45	86.56
XML	Qwen2-7B (原始)	4.35%	4.95%	-	67.26
XML+SFT	LLaMA3.1-8B-ft	23.91%	30.31%	75.58	92.46
SoM	GPT-4o	31.16%	35.02%	87.32	85.36
SoM	Claude-3.5-Sonnet	28.99%	32.66%	113.41	81.16
SoM	CogVLM2 (原始)	0.72%	0.72%	-	17.97
SoM+SFT	Qwen2-VL-7B-ft	18.12%	22.64%	65.23	88.29

模式	模型	基础	+ReAct	+SeeAct
XML	GPT-4o	25.36%	33.33%	24.64%
XML	Gemini-1.5-Pro	18.84%	31.16%	21.01%
SoM	GPT-4o	31.16%	31.88%	30.43%

微调效果显著: LLM成功率从4.59%→21.50%（+368%），LMM从1.93%→13.28%（+588%），微调后开源模型接近甚至部分超过闭源模型
ReAct框架仅在XML模式显著有效: XML+ReAct将GPT-4o的SR从25.36%提升到33.33%，但SoM模式下提升微弱
效率与质量的权衡: 微调模型平均仅生成4.96 tokens/步，而ReAct需23.56、SeeAct需129.12 tokens/步
操作效率大幅提升: 微调后合理操作比(ROR)普遍超过88%，远高于微调前的17-67%
屏幕尺寸影响性能: 常规手机尺寸（Pixel 7/8 Pro）表现最优，过小/过大屏幕都会降低性能
最佳闭源表现仅31.16%: AndroidLab基准具有足够挑战性，最强模型也未过半