GUI-CEval: A Hierarchical and Comprehensive Chinese Benchmark for Mobile GUI Agents¶

日期: 2026-03-16
arXiv: 2603.15039
会议: CVPR 2026
领域: 多模态/VLM / LLM Agent
关键词: GUI Agent, 中文移动端, 层级基准, 感知-执行链, 真机环境

一句话总结¶

构建首个中文移动端 GUI Agent 综合基准 GUI-CEval（201 款 App×4 设备类型，4,194 QA + 4,028 Agent 任务），采用感知/规划/反思/执行/评估五维层级结构，20 个模型评估揭示反思决策和自我评估是当前系统最大短板，最强模型在线成功率仅 33%。

研究背景与动机¶

领域现状: MLLM 推动的 GUI Agent 在视觉感知、跨模态推理和交互控制上进展迅速，但现有基准存在语言偏差（英语为主）、平台不一致、任务狭窄、数据真实性不足等问题。
现有痛点: (a) 中文移动生态缺乏系统评测；(b) ScreenSpot 只评 grounding，AndroidControl 只评离线 agent——无法诊断全流程能力链；(c) 自动化数据采集忽视真实用户意图。
核心 idea: 构建覆盖感知到执行完整链路、在真机上采集验证、统一可诊断的中文移动 GUI 基准。

方法详解¶

基准设计¶

两层结构: - 基础任务(Foundation): 通过多模态 QA 评估原子能力，5 个维度： - 感知(Perception): App 识别、页面识别、控件理解 - 规划(Planning): 任务规划、动作决策、动作推理 - 反思(Reflection): 短期反思（单步正确性）、长期反思（轨迹级错误识别） - 执行(Execution): GUI Grounding 和动作参数预测 - 评估(Evaluation): 成功判断、指令生成、时序排列

应用任务(Application): 评估端到端执行能力
GUI Grounding: 给定截图+指令，选择正确交互位置
Offline Agent: 静态快照中迭代预测下一步动作
Online Agent: 真机环境完整执行任务

数据采集¶

设备: 201 款主流中文 App × 4 种设备类型（手机/平板/折叠屏）
采集: 单图采集 + 轨迹采集，强模型执行 + 人工筛选验证
三阶段质控: 人工交叉检查 → 自动化检验（大小模型验证） → 人工评估（20% 抽检建立人类基线）

实验关键数据¶

主要结果¶

模型	感知	规划	反思	评估	Grounding	离线	在线	平均
Qwen2.5-VL-72B	82.28	66.68	21.01	40.09	88.10	70.30	26.94	61.41
UI-TARS-72B-SFT	70.28	45.49	10.97	41.08	90.10	79.40	33.33	56.22
GPT-4o	37.55	26.06	13.60	35.72	35.10	25.50	0.83	27.69

关键发现¶

感知成熟但反思/评估严重不足: Perception 最高 82%，但 Reflection 最高仅 21%
在线任务极具挑战: 最佳在线成功率 33%，超半数模型低于 20%
规模扩展边际递减: Qwen 3B→72B 平均提升 5.9%，但在线仅提升 4.9%
步数增长导致悬崖式下降: 3 步任务 30-58% 成功率，7+ 步几乎为 0
初始页面影响巨大: 从 Home 启动 vs 其他页面启动，性能差异可达 20%+

亮点与洞察¶

统一诊断框架: 首次在同一应用/页面上联合评估 grounding、离线和在线三种任务
真机数据: 完全在物理设备上采集，包含广告弹窗、权限提示等真实干扰
GPT-4o 表现出乎意料之差: 27.69% 远落后于开源模型，可能与中文 GUI 理解弱相关
SFT vs RL: SFT 建立核心能力，适度 RL 增强泛化和恢复行为
工程实现考量：该方法的计算开销可控，在标准 GPU 上可以合理时间内完成训练和推理，具有实际部署潜力

局限性 / 可改进方向¶

仅覆盖中文移动端，缺少桌面和网页场景
在线评估受网络波动和设备状态影响，复现性有限
201 App 虽多但仍以高频应用为主，长尾场景覆盖不足
评估维度间的因果关系有待进一步量化分析
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐⭐ 首个全面的中文移动 GUI Agent 基准，五维诊断框架设计精良
实验充分度: ⭐⭐⭐⭐⭐ 20 模型/47 配置，分辨率/步长/初始状态多维消融
写作质量: ⭐⭐⭐⭐ 结构清晰，分析深入，但部分表格信息密度高
价值: ⭐⭐⭐⭐⭐ 填补中文 GUI Agent 评测空白，CVPR 2026 accepted