GUI-CEval: A Hierarchical and Comprehensive Chinese Benchmark for Mobile GUI Agents¶
日期: 2026-03-16
arXiv: 2603.15039
会议: CVPR 2026
领域: 多模态/VLM / LLM Agent
关键词: GUI Agent, 中文移动端, 层级基准, 感知-执行链, 真机环境
一句话总结¶
构建首个中文移动端 GUI Agent 综合基准 GUI-CEval(201 款 App×4 设备类型,4,194 QA + 4,028 Agent 任务),采用感知/规划/反思/执行/评估五维层级结构,20 个模型评估揭示反思决策和自我评估是当前系统最大短板,最强模型在线成功率仅 33%。
研究背景与动机¶
-
领域现状: MLLM 推动的 GUI Agent 在视觉感知、跨模态推理和交互控制上进展迅速,但现有基准存在语言偏差(英语为主)、平台不一致、任务狭窄、数据真实性不足等问题。
-
现有痛点: (a) 中文移动生态缺乏系统评测;(b) ScreenSpot 只评 grounding,AndroidControl 只评离线 agent——无法诊断全流程能力链;(c) 自动化数据采集忽视真实用户意图。
-
核心 idea: 构建覆盖感知到执行完整链路、在真机上采集验证、统一可诊断的中文移动 GUI 基准。
方法详解¶
基准设计¶
两层结构: - 基础任务(Foundation): 通过多模态 QA 评估原子能力,5 个维度: - 感知(Perception): App 识别、页面识别、控件理解 - 规划(Planning): 任务规划、动作决策、动作推理 - 反思(Reflection): 短期反思(单步正确性)、长期反思(轨迹级错误识别) - 执行(Execution): GUI Grounding 和动作参数预测 - 评估(Evaluation): 成功判断、指令生成、时序排列
- 应用任务(Application): 评估端到端执行能力
- GUI Grounding: 给定截图+指令,选择正确交互位置
- Offline Agent: 静态快照中迭代预测下一步动作
- Online Agent: 真机环境完整执行任务
数据采集¶
- 设备: 201 款主流中文 App × 4 种设备类型(手机/平板/折叠屏)
- 采集: 单图采集 + 轨迹采集,强模型执行 + 人工筛选验证
- 三阶段质控: 人工交叉检查 → 自动化检验(大小模型验证) → 人工评估(20% 抽检建立人类基线)
实验关键数据¶
主要结果¶
| 模型 | 感知 | 规划 | 反思 | 评估 | Grounding | 离线 | 在线 | 平均 |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL-72B | 82.28 | 66.68 | 21.01 | 40.09 | 88.10 | 70.30 | 26.94 | 61.41 |
| UI-TARS-72B-SFT | 70.28 | 45.49 | 10.97 | 41.08 | 90.10 | 79.40 | 33.33 | 56.22 |
| GPT-4o | 37.55 | 26.06 | 13.60 | 35.72 | 35.10 | 25.50 | 0.83 | 27.69 |
关键发现¶
- 感知成熟但反思/评估严重不足: Perception 最高 82%,但 Reflection 最高仅 21%
- 在线任务极具挑战: 最佳在线成功率 33%,超半数模型低于 20%
- 规模扩展边际递减: Qwen 3B→72B 平均提升 5.9%,但在线仅提升 4.9%
- 步数增长导致悬崖式下降: 3 步任务 30-58% 成功率,7+ 步几乎为 0
- 初始页面影响巨大: 从 Home 启动 vs 其他页面启动,性能差异可达 20%+
亮点与洞察¶
- 统一诊断框架: 首次在同一应用/页面上联合评估 grounding、离线和在线三种任务
- 真机数据: 完全在物理设备上采集,包含广告弹窗、权限提示等真实干扰
- GPT-4o 表现出乎意料之差: 27.69% 远落后于开源模型,可能与中文 GUI 理解弱相关
- SFT vs RL: SFT 建立核心能力,适度 RL 增强泛化和恢复行为
- 工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力
局限性 / 可改进方向¶
- 仅覆盖中文移动端,缺少桌面和网页场景
- 在线评估受网络波动和设备状态影响,复现性有限
- 201 App 虽多但仍以高频应用为主,长尾场景覆盖不足
- 评估维度间的因果关系有待进一步量化分析
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个全面的中文移动 GUI Agent 基准,五维诊断框架设计精良
- 实验充分度: ⭐⭐⭐⭐⭐ 20 模型/47 配置,分辨率/步长/初始状态多维消融
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入,但部分表格信息密度高
- 价值: ⭐⭐⭐⭐⭐ 填补中文 GUI Agent 评测空白,CVPR 2026 accepted