What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities¶
会议: ICML 2025 (Oral)
arXiv: 2506.08933
代码: https://omni-bench.github.io/
领域: Human Understanding
关键词: virtual agent, benchmark, graph-based tasks, multi-dimensional evaluation, automated pipeline
一句话总结¶
本文提出 OmniBench——一个基于图结构的可扩展虚拟 Agent 基准,通过自动化流水线合成可控复杂度的任务,配合 OmniEval 多维评估框架,在 20 个应用场景中生成 36K 个任务,系统揭示了虚拟 Agent 在不同能力维度上的短板。
研究背景与动机¶
领域现状: 基于多模态大语言模型(MLLM)的虚拟 Agent 近年来取得了显著进展,能够在手机、电脑等平台上自主完成界面操作任务。评估这些 Agent 的 benchmark(如 AITW、OSWorld)越来越多。
现有痛点: 现有基准面临三大限制: - 任务复杂度不可控: 手工标注的任务复杂度参差不齐,难以系统分析复杂度对性能的影响 - 规模和多样性有限: 人工标注成本高,导致场景覆盖不足(通常只有几百个任务) - 缺乏多维评估: 只关注最终任务成功率,无法诊断 Agent 在具体能力维度(如空间推理、长期规划)上的短板
核心矛盾: 如何在保证任务质量的同时实现大规模、多场景、多维度的 Agent 评估?人工标注质量高但不可扩展,自动生成可扩展但质量难控。
本文目标: 构建一个既可扩展又能多维评估虚拟 Agent 能力的基准。
切入角度: 利用图(graph)结构表示任务——每个节点为原子操作(subtask),边为依赖关系。通过子任务组合自动合成可控复杂度的复合任务。
核心 idea: 将 Agent 任务建模为有向无环图(DAG),通过图的拓扑结构自动控制任务复杂度,通过图的节点类型自然引入多种能力维度的评估。
方法详解¶
整体框架¶
输入:20 个预定义场景的原子操作库 输出:36K 个图结构化任务 + 多维评估结果
Pipeline: 1. 原子操作定义: 为每个场景定义基本操作(如"点击按钮"、"输入文本"、"滑动屏幕") 2. 图合成: 自动组合原子操作为图结构任务,通过图的深度、宽度、分支因子控制复杂度 3. 环境实例化: 将抽象图任务实例化为具体的应用场景 4. 多维评估: 用 OmniEval 从多个维度评估 Agent
关键设计¶
-
图结构任务合成(Graph-Based Task Synthesis):
- 功能:自动生成复杂度可控的任务
- 核心思路:任务 = DAG \(G = (V, E)\),其中 \(V\) 为原子操作集合,\(E\) 为依赖关系。图的拓扑特征决定了任务复杂度:
- 深度: 最长操作序列,反映长期规划需求
- 宽度: 最大并行操作数,反映多目标管理能力
- 分支: 条件分支,反映决策推理能力
- 关键公式:任务复杂度 \(C(G) = f(\text{depth}, \text{width}, \text{branching})\)
- 设计动机:图结构提供了一个灵活且可解释的任务表示,允许精确控制复杂度的每个维度
-
跨平台自动化流水线(Cross-Platform Automated Pipeline):
- 功能:将抽象图任务自动转化为不同平台(Android、Web、Desktop)上的具体任务
- 核心思路:每个原子操作对应平台特定的 UI 操作模板。通过模板实例化 + 环境快照,生成可执行的任务
- 设计动机:跨平台使 benchmark 不局限于特定应用生态
-
OmniEval 多维评估框架(Multi-Dimensional Evaluation Framework):
- 功能:从 10 个能力维度评估 Agent
- 评估维度包括:
- 基础操作: 点击/输入/滑动的准确率
- 空间感知: UI 元素定位和布局理解
- 逻辑推理: 条件判断和分支选择
- 长期规划: 多步任务的路径规划
- 错误恢复: 操作失败后的纠正能力
- 多模态理解: 图标/图像的语义理解
- 等共 10 个维度
- 核心思路:每个子任务标注了其对应的能力维度,通过子任务级评估聚合为维度级评分
- 设计动机:仅靠端到端成功率无法找到 Agent 的具体短板
损失函数 / 训练策略¶
在 OmniBench 的图结构化数据上微调 Agent(用于训练实验)。使用标准的行为克隆损失。
实验关键数据¶
主实验¶
| 模型 | 整体成功率 | 子任务准确率 | 逻辑推理 | 长期规划 | 错误恢复 |
|---|---|---|---|---|---|
| GPT-4o | 61.2% | 73.8% | 68.5% | 51.3% | 42.1% |
| Claude 3.5 | 58.7% | 71.2% | 65.3% | 53.8% | 39.6% |
| Qwen2-VL-72B | 47.3% | 62.4% | 54.1% | 41.2% | 35.8% |
| CogAgent | 42.8% | 58.1% | 48.7% | 36.5% | 43.2% |
| 人类 | 95.2% | 97.8% | 98.1% | 93.4% | 91.7% |
消融实验¶
| 配置 | 训练数据效率 | 说明 |
|---|---|---|
| 图结构化数据训练 | +15.3% 成功率 | 相比平面数据显著提升 |
| 人工标注数据训练 | +12.1% 成功率 | 质量高但数量少 |
| 平面合成数据训练 | +8.7% 成功率 | 缺乏结构信息 |
| 无训练 (zero-shot) | 基线 | — |
| 任务复杂度 | GPT-4o 成功率 | Qwen2-VL 成功率 | 说明 |
|---|---|---|---|
| 深度 1-2 (简单) | 82.5% | 68.3% | 简单任务差距小 |
| 深度 3-5 (中等) | 61.2% | 45.7% | 复杂度增加,差距加大 |
| 深度 6-10 (困难) | 38.1% | 22.4% | 长期规划是最大瓶颈 |
关键发现¶
- 合成数据的人类接受率达 91%,质量接近人工标注
- 图结构化训练数据比平面数据更高效地提升 Agent 性能(+15.3% vs +8.7%)
- 长期规划和错误恢复是所有模型的最大短板——即使 GPT-4o 也只有约 50% 和 42%
- 任务复杂度(图深度)增加时性能急剧下降,说明当前 Agent 的规划能力严重不足
- 开源模型和闭源模型在基础操作上差距不大,但在推理和规划上差距显著
亮点与洞察¶
- Oral 论文,基准设计出色: 图结构化任务合成是优雅的解决方案
- 规模空前: 36K 个任务覆盖 20 个场景,远超现有基准
- 多维评估填补空白: 首次系统地从 10 个能力维度诊断 Agent
- 训练价值: 图结构数据不仅用于评估,还能高效训练 Agent
局限与展望¶
- 自动合成的任务可能缺乏真实用户任务的"自然性"
- 10 个能力维度的划分是否完备有待讨论
- 目前聚焦于 UI 操作任务,API 调用型 Agent 未覆盖
- 评估结果可能受具体 prompt 模板影响
相关工作与启发¶
- OSWorld (Xie et al., 2024): 基于真实操作系统的 Agent 基准
- AndroidWorld (Rawles et al., 2024): Android 平台 Agent 基准
- 本文的图结构合成思路可推广到其他需要可控复杂度的 Agent 评估场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 图结构化任务合成和多维评估框架是重要创新
- 实验充分度: ⭐⭐⭐⭐⭐ 大规模评估,多模型比较,训练验证
- 写作质量: ⭐⭐⭐⭐ 系统清晰,图表丰富
- 价值: ⭐⭐⭐⭐⭐ 作为 Oral 论文,对 Agent 评估领域有重要推动
相关论文¶
- [CVPR 2026] ViBES: A Conversational Agent with Behaviorally-Intelligent 3D Virtual Body
- [NeurIPS 2025] PARCO: Parallel AutoRegressive Models for Multi-Agent Combinatorial Optimization
- [CVPR 2025] Collaborative Tree Search for Enhancing Embodied Multi-Agent Collaboration
- [CVPR 2025] Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback
- [ICCV 2025] EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds