跳转至

GUI-CEval: A Hierarchical and Comprehensive Chinese Benchmark for Mobile GUI Agents

日期: 2026-03-16
arXiv: 2603.15039
会议: CVPR 2026
领域: 多模态/VLM / LLM Agent
关键词: GUI Agent, 中文移动端, 层级基准, 感知-执行链, 真机环境

一句话总结

构建首个中文移动端 GUI Agent 综合基准 GUI-CEval(201 款 App×4 设备类型,4,194 QA + 4,028 Agent 任务),采用感知/规划/反思/执行/评估五维层级结构,20 个模型评估揭示反思决策和自我评估是当前系统最大短板,最强模型在线成功率仅 33%。

研究背景与动机

  1. 领域现状: MLLM 推动的 GUI Agent 在视觉感知、跨模态推理和交互控制上进展迅速,但现有基准存在语言偏差(英语为主)、平台不一致、任务狭窄、数据真实性不足等问题。

  2. 现有痛点: (a) 中文移动生态缺乏系统评测;(b) ScreenSpot 只评 grounding,AndroidControl 只评离线 agent——无法诊断全流程能力链;(c) 自动化数据采集忽视真实用户意图。

  3. 核心 idea: 构建覆盖感知到执行完整链路、在真机上采集验证、统一可诊断的中文移动 GUI 基准。

方法详解

基准设计

两层结构: - 基础任务(Foundation): 通过多模态 QA 评估原子能力,5 个维度: - 感知(Perception): App 识别、页面识别、控件理解 - 规划(Planning): 任务规划、动作决策、动作推理 - 反思(Reflection): 短期反思(单步正确性)、长期反思(轨迹级错误识别) - 执行(Execution): GUI Grounding 和动作参数预测 - 评估(Evaluation): 成功判断、指令生成、时序排列

  • 应用任务(Application): 评估端到端执行能力
  • GUI Grounding: 给定截图+指令,选择正确交互位置
  • Offline Agent: 静态快照中迭代预测下一步动作
  • Online Agent: 真机环境完整执行任务

数据采集

  • 设备: 201 款主流中文 App × 4 种设备类型(手机/平板/折叠屏)
  • 采集: 单图采集 + 轨迹采集,强模型执行 + 人工筛选验证
  • 三阶段质控: 人工交叉检查 → 自动化检验(大小模型验证) → 人工评估(20% 抽检建立人类基线)

实验关键数据

主要结果

模型 感知 规划 反思 评估 Grounding 离线 在线 平均
Qwen2.5-VL-72B 82.28 66.68 21.01 40.09 88.10 70.30 26.94 61.41
UI-TARS-72B-SFT 70.28 45.49 10.97 41.08 90.10 79.40 33.33 56.22
GPT-4o 37.55 26.06 13.60 35.72 35.10 25.50 0.83 27.69

关键发现

  1. 感知成熟但反思/评估严重不足: Perception 最高 82%,但 Reflection 最高仅 21%
  2. 在线任务极具挑战: 最佳在线成功率 33%,超半数模型低于 20%
  3. 规模扩展边际递减: Qwen 3B→72B 平均提升 5.9%,但在线仅提升 4.9%
  4. 步数增长导致悬崖式下降: 3 步任务 30-58% 成功率,7+ 步几乎为 0
  5. 初始页面影响巨大: 从 Home 启动 vs 其他页面启动,性能差异可达 20%+

亮点与洞察

  • 统一诊断框架: 首次在同一应用/页面上联合评估 grounding、离线和在线三种任务
  • 真机数据: 完全在物理设备上采集,包含广告弹窗、权限提示等真实干扰
  • GPT-4o 表现出乎意料之差: 27.69% 远落后于开源模型,可能与中文 GUI 理解弱相关
  • SFT vs RL: SFT 建立核心能力,适度 RL 增强泛化和恢复行为
  • 工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力

局限性 / 可改进方向

  • 仅覆盖中文移动端,缺少桌面和网页场景
  • 在线评估受网络波动和设备状态影响,复现性有限
  • 201 App 虽多但仍以高频应用为主,长尾场景覆盖不足
  • 评估维度间的因果关系有待进一步量化分析
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入

评分

  • 新颖性: ⭐⭐⭐⭐ 首个全面的中文移动 GUI Agent 基准,五维诊断框架设计精良
  • 实验充分度: ⭐⭐⭐⭐⭐ 20 模型/47 配置,分辨率/步长/初始状态多维消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,分析深入,但部分表格信息密度高
  • 价值: ⭐⭐⭐⭐⭐ 填补中文 GUI Agent 评测空白,CVPR 2026 accepted