ProBench: Benchmarking GUI Agents with Accurate Process Information¶

会议: AAAI 2026
arXiv: 2511.09157
代码: 无（基于 adbutils）
领域: LLM Agent / GUI Agent / Benchmark
关键词: GUI Agent评估, 过程信息, 移动端Benchmark, Process Provider, 中英双语应用

一句话总结¶

提出 ProBench，首个同时评估"最终状态"和"操作过程"的移动端 GUI Agent benchmark：200+ 挑战性任务覆盖 34 个中英文主流 App，通过 Process Provider（Structure Description Converter + MLLM Summarizer）自动捕获精确的中间过程信息，评估发现最强模型 Gemini 2.5 Pro 也仅完成 40.1% 任务，暴露了 grounding 不足、历史操作感知差、任务规划过于简化三大普遍问题。

研究背景与动机¶

领域现状：GUI Agent benchmark（AndroidWorld、AndroidLab 等）已能在真实设备上评估 Agent 执行 GUI 操作任务，但几乎所有评估都只检查"最终屏幕状态"来判断任务是否完成。
现有痛点：仅看最终状态会产生"虚假成功"——例如"买最便宜的无线鼠标"任务，如果 Agent 没有排序就随便选了一个，虽然最终屏幕显示购买确认也会判为成功。中间关键步骤（如"按价格排序"）的信息在最终页面上根本不可见。
核心矛盾：GUI 任务本质是多步链式操作，不是所有关键信息都展示在最后几个页面上。少数尝试引入过程评估的工作（SPA-BENCH、A3）要么需要手工标注中间状态（不可扩展），要么依赖 LLM 分解（不够准确）。
本文要解决什么：如何自动、准确地捕获操作过程信息，使 GUI Agent 评估既考虑最终结果又考虑关键中间步骤？
切入角度：设计 Process Provider 自动提供过程信息，两种可选方案——(a) 解析页面层级结构获取操作描述；(b) 用 MLLM 比较操作前后截图识别操作变化。
核心 idea 一句话：区分 State-related Task（仅看最终状态）和 Process-related Task（需要检查关键中间操作），用 Process Provider 自动提供精确过程信息。

方法详解¶

整体框架¶

ProBench 包含三个模块：(1) Task Curation（任务构建）；(2) Dynamic Environment（动态执行环境）；(3) Evaluation Pipeline（评估管线含 Process Provider）。

关键设计¶

两类任务划分:
State-related Task：所有必要信息在最终截图上可见（如"查看支付宝余额"），仅检查最终状态即可
Process-related Task：需要特定中间操作但最终状态无法完全反映（如"找评分最高的寿司店并查看完整菜单"——需要排序+筛选+选择，这些操作在最终页面不可见）
设计动机：真实世界大量任务需要正确的操作过程，仅看结果不够
Process Provider — 两个可选组件:
Structure Description Converter：每次 click 后解析 a11y tree（无障碍树），定位最小可点击节点，提取其 text/content_desc/resource_id 属性，生成人可读的操作描述
MLLM-based Summarizer：将操作前后两张截图拼接+标注点击坐标，让 MLLM 比较差异并生成操作摘要（如"点击了 Airbnb 首页的搜索框"）
设计动机：Structure Description Converter 快速准确但依赖 a11y tree 质量；MLLM Summarizer 更灵活但需要 MLLM 推理。两者互补，用户可选
评估准确性验证:
State-related Task：Evaluator 准确率 96.0%
Process-related Task + Structure Description Converter：89.7%
Process-related Task + MLLM Summarizer：94.1%

Benchmark 规模¶

34 个主流应用（14 英文 + 20 中文），200+ 任务，覆盖媒体/新闻/社交/购物/生活等场景。每个任务最多 15 步交互。

实验关键数据¶

主实验¶

模型	State-related	Process-related	总平均
Gemini 2.5 Pro	45.6	27.9	40.1
Qwen2.5-VL-72B	40.9	27.9	36.9
Qwen2.5-VL-32B	18.8	11.8	16.6
Qwen2.5-VL-7B	6.7	1.5	5.1
UI-TARS-1.5-7B	11.4	2.9	8.8
GPT-4o	0.0	0.0	0.0
Claude 4 Sonnet	0.0	0.0	0.0
UI-R1-E-3B	0.0	0.0	0.0

错误分析¶

模型	未完成任务比例	其中早停比例
Gemini 2.5 Pro	90.0%	49.6%
Qwen2.5-VL-72B	71.5%	50.0%
Qwen2.5-VL-7B	93.7%	63.7%

关键发现¶

最强模型也不到 50%：Gemini 2.5 Pro 仅 40.1%，说明真实在线环境的 GUI 操作对模型仍极具挑战
Process-related 比 State-related 难很多：所有模型在 Process 任务上都显著降低（Gemini: 45.6% → 27.9%），证明过程评估的必要性
GPT-4o 和 Claude 4 惨败：因为 grounding 能力极差——无法准确定位 GUI 元素坐标，连第一步都过不去
社交和生活类 App 最难：信息刷新频繁、布局复杂、多广告弹窗，与用户日常需求恰恰相反
GUI 专用模型泛化能力有限：UI-TARS-1.5-7B 在英文任务上超过同尺寸通用模型，但在中文任务上远落后，说明特定数据微调的局限性
重复操作死循环是普遍问题：Agent 无法识别操作已完成（如已经点击了搜索框但不知道），导致反复点击同一位置
任务规划过于简单：Agent 倾向于将整个复杂指令直接输入搜索框，而非分步执行

亮点与洞察¶

State vs Process 的任务划分是核心贡献——首次系统地区分了两类 GUI 任务，并设计了自动化过程信息采集方案
三大错误模式总结非常有价值：(a) Grounding 不足（定位 GUI 元素失败）；(b) 历史操作感知差（重复操作+死循环）；(c) 任务规划过于简化（把复杂任务等同于搜索）——这些问题指明了 GUI Agent 研究的未来方向
中文 App 的包含填补了现有 benchmark 的重要空白——大部分 benchmark 只有英文 App
真实在线环境（而非模拟/离线 App）更能反映实际使用场景中的挑战（网络延迟、内容动态变化、反自动化机制）

局限性 / 可改进方向¶

评估是二值的（成功/失败），缺少对"部分完成"的度量
200+ 任务规模相对有限，且高度依赖中国市场 App（微信、支付宝等）
Process Provider 的准确性（89.7%-94.1%）仍有提升空间
未提供模型改进建议的实验验证（如加入操作历史记忆是否有效）
缺少与 SPA-BENCH、A3 等同类 benchmark 的直接结果对比

评分¶

新颖性: ⭐⭐⭐⭐ State/Process 划分和 Process Provider 设计新颖，但整体是 benchmark 工作
实验充分度: ⭐⭐⭐⭐ 9个模型 + 3类错误分析 + 应用类别分析 + 评估管线验证，但缺少直接改进实验
写作质量: ⭐⭐⭐⭐⭐ 错误案例分析生动直观，问题定义清晰，附录包含所有任务列表和 prompt
价值: ⭐⭐⭐⭐⭐ 揭示了"最强模型<50%成功率"的现实，三大错误模式总结对社区有重要指导意义