Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments¶

会议: ICLR 2026 (Oral)
arXiv: 2602.11964
代码: 基于 Agents Research Environments (ARE) 平台，开源
领域: LLM Agent 评估
关键词: LLM Agent, 动态环境, 异步交互, benchmark, 强化学习

一句话总结¶

提出 Gaia2 基准，在动态异步环境中评估 LLM Agent 的能力，引入时间约束、噪声事件、歧义解析和多 Agent 协作等现实场景，配合可验证奖励的写操作验证器，使基准可直接用于 RLVR 训练，评估显示最强模型 GPT-5 (high) 仅达42% pass@1。

研究背景与动机¶

当前 LLM Agent 的评估存在根本性缺陷：大多数基准依赖静态或同步环境。在这些设置中，环境不会独立于 Agent 的操作而变化——Agent 拥有完全的时间控制权，可以任意暂停、思考，环境状态始终等待 Agent 的下一步操作。

然而，真实世界的任务环境完全不同： - 时间敏感性：航班价格波动、库存变化、截止日期临近 - 异步事件：新消息到达、状态更新独立发生 - 噪声与歧义：不完整信息、矛盾的上下文、需要澄清的需求 - 多方协作：需要与其他 Agent 或人类协调

现有基准（如原始 GAIA）只测试静态问答和工具调用，无法评估 Agent 在这些现实维度上的能力。这导致了一个严重的"sim2real gap"——基准上的好成绩不能预测真实部署中的表现。

Gaia2 的设计目标是创建一个更贴近现实的评估平台，同时保持可量化和可复现性。

方法详解¶

整体框架¶

Gaia2 构建在消费者环境（consumer environment）之上，基于开源的 Agents Research Environments (ARE) 平台。每个评估场景包含： - 动态环境：独立于 Agent 操作而演化 - 任务描述：需要 Agent 在环境中完成的目标 - 写操作验证器（write-action verifier）：细粒度评估 Agent 在每个关键操作点的正确性

关键设计¶

动态异步环境:

与传统基准的"请求-响应"模式不同，Gaia2 的环境是持续运行的。环境状态会随着"时间"推进而变化，新信息会异步到达。Agent 必须： - 在时间窗口内做出决策（否则机会消失） - 监控环境变化并相应调整策略 - 处理意外事件和状态转换

这一设计强制 Agent 在不确定性下决策，测试了超越简单规划的适应性能力。

多维度能力测试:

Gaia2 的场景被设计为覆盖多个核心能力维度： - 时间敏感决策：在限时条件下选择最优行动 - 噪声鲁棒性：在不完整或矛盾信息中提取关键事实 - 歧义解析：主动寻求澄清或在多义理解中选择最合理的解释 - 多 Agent 协作：与其他 Agent 交换信息、协调行动 - 环境适应：响应动态变化并修正计划

写操作验证器（Write-Action Verifier）:

这是 Gaia2 最重要的技术创新之一。传统基准通常只评估最终答案，而 Gaia2 评估 Agent 在任务过程中的每个关键行动。

每个场景定义了若干"写操作"检查点
在每个检查点，验证器评估 Agent 的操作是否正确
评估粒度从"最终结果对错"细化到"过程中每步决策质量"

更重要的是，这种可验证的奖励信号使 Gaia2 可以直接用于强化学习训练——RLVR（Reinforcement Learning from Verifiable Rewards），为从基准到训练的闭环提供了基础设施。

基于 ARE 平台的可扩展架构:

Gaia2 构建在开源的 ARE（Agents Research Environments）框架之上，设计为易于扩展： - 新场景可以通过标准接口添加 - 环境逻辑和验证逻辑分离 - 支持多种 Agent 框架的集成 - 消费者环境（如购物、旅行规划）贴近日常应用

评估协议¶

主指标：pass@1（一次尝试的通过率）
细粒度分析：按能力维度分解的性能剖面
效率指标：完成速度和 API 调用成本的权衡

实验关键数据¶

主实验：模型整体表现¶

模型	pass@1	类型	突出特点
GPT-5 (high)	42%	闭源	综合最强但时间敏感任务弱
Claude-4 Sonnet	~35-38%	闭源	准确性与速度平衡，成本更优
Kimi-K2	21%	开源	开源模型中最佳
其他开源模型	<20%	开源	显著落后于闭源

能力维度分析¶

能力维度	GPT-5	Claude-4	Kimi-K2	说明
时间敏感决策	弱	中等	弱	最具挑战的维度
噪声鲁棒性	强	强	中	闭源模型优势明显
歧义解析	强	中	弱	需要强推理能力
多Agent协作	中	中	弱	所有模型的薄弱环节
环境适应	中	中	弱	动态调整计划的能力

消融实验¶

对比维度	关键发现
静态 vs 动态环境	动态环境下所有模型性能显著下降
同步 vs 异步	异步事件进一步拉大了模型间差距
单 Agent vs 多 Agent	多 Agent 场景是当前最大瓶颈
无时间限制 vs 有时间限制	时间约束对开源模型影响更大

关键发现¶

没有模型在所有维度上占优：GPT-5 综合最强但在时间敏感任务上失败，Claude-4 在成本效率上更好
42% pass@1 暴露了巨大差距：即使最强模型也有近60%的场景无法通过，说明现实Agent任务仍极具挑战
开源与闭源的鸿沟：21% vs 42% 的差距表明开源模型在Agent场景中的能力仍然不足
"sim2real gap"确实存在：在静态基准上表现接近的模型，在Gaia2的动态环境中差异被放大
RLVR 的潜力：写操作验证器提供的细粒度奖励信号为基于强化学习的Agent训练开辟了道路

亮点与洞察¶

从"能问答"到"能行动"的范式转变：Gaia2 评估的不是 Agent 的知识或推理，而是在动态环境中采取正确行动的能力
写操作验证器是关键创新：使基准同时服务于评估和训练两个目的，大大提升了基准的实用价值
异步性是被忽视的核心挑战：现有 Agent 系统几乎都假设同步交互，Gaia2 首次系统性地测试了异步场景
ICLR 2026 Oral 说明其重要性：被选为口头报告反映了社区对真实Agent评估的迫切需求
开源 ARE 平台的生态价值：不仅是一个基准，更是一个可持续扩展的研究基础设施

局限与展望¶

消费者环境可能不代表所有领域：购物、旅行等场景与科学研究、软件开发等专业领域的Agent需求不同
评估的可复现性挑战：动态环境的随机性可能导致不同运行间结果波动
写操作验证器的设计需要人工：每个场景的验证器需要人工定义检查点和正确性标准，限制了自动化扩展
未充分测试工具使用能力：虽然环境是动态的，但工具集和API接口的复杂度可能不够
多 Agent 场景的规模有限：当前可能主要是双 Agent 场景，更大规模的协作测试有待开发

评分¶

新颖性: ⭐⭐⭐⭐⭐ (动态异步Agent评估 + RLVR-ready设计, 领域引领性)
实验充分度: ⭐⭐⭐⭐ (覆盖主流模型但场景数量未知)
写作质量: ⭐⭐⭐⭐ (结构合理，分析清晰)
价值: ⭐⭐⭐⭐⭐ (Agent评估的重要里程碑，Oral接收实至名归)