AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation¶
会议: ACL 2026
arXiv: 2604.18240
代码: https://aj-bench.github.io/
领域: LLM评估 / Agent
关键词: Agent评估, Agent-as-a-Judge, 环境交互验证, 轨迹评估, 基准测试
一句话总结¶
提出 AJ-Bench,首个系统评估 Agent-as-a-Judge 能力的基准,覆盖搜索、数据系统和 GUI 三个领域共 155 个任务和 516 条标注轨迹,实验表明 Agent-as-a-Judge 比 LLM-as-a-Judge 平均 F1 提升约 13 个百分点。
研究背景与动机¶
领域现状:随着 RL 持续扩展 LLM Agent 训练规模,可靠验证 Agent 在复杂环境中的行为变得越来越关键。当前主流验证方式包括规则验证器和 LLM-as-a-Judge,前者依赖预定义规则,后者基于文本表面信号做判断。
现有痛点:规则验证器难以泛化到复杂、开放场景(如科学假设验证、长文事实核查)。LLM-as-a-Judge 无法获取环境状态信息,只能基于轨迹文本做表面判断,容易产生错误评估。例如,判断一个 Agent 是否正确查询了某个数据库,仅看轨迹文本是不够的,需要实际检查数据库状态。
核心矛盾:验证 Agent 行为需要理解环境状态变化,但现有评估框架将 Judge 限制在"旁观者"角色,无法与环境交互获取验证证据。
本文目标:构建首个系统评估 Agent-as-a-Judge 能力的基准,量化 Agent 评估者在信息获取、状态验证和过程验证方面的能力。
切入角度:赋予评估者"代理"能力——让 Judge 能够与环境交互、使用工具获取超出轨迹文本的证据来做出更可靠的判断。
核心 idea:构建需要环境交互的验证任务,系统对比 Agent-as-a-Judge 和 LLM-as-a-Judge 的差异,揭示环境交互对评估可靠性的关键作用。
方法详解¶
整体框架¶
AJ-Bench 的构建流程分三步:(1) 从搜索、数据系统(文件系统+Postgres)、GUI(PPT+Word+Excel)三个领域设计 155 个任务;(2) 使用多个模型生成 516 条轨迹并人工标注;(3) 为 DS 和 GUI 领域构建可交互的环境副本。评估时,Judge Agent 接收任务描述和候选轨迹,可通过 60 种工具与环境交互获取证据,最终输出成功/失败的二分类判断。
关键设计¶
-
三维度评估能力设计:
- 功能:全面覆盖 Agent-as-a-Judge 所需的核心验证能力
- 核心思路:(a) 信息获取——通过外部搜索验证轨迹中的事实性声明(搜索领域);(b) 状态验证——通过工具检查环境当前状态是否符合预期(DS领域,如检查文件是否存在、数据库记录是否正确);(c) 过程验证——检查关键动作和执行步骤的正确性(GUI领域,如检查PPT幻灯片是否被正确修改)
- 设计动机:这三个维度对应了 Agent-as-a-Judge 相较 LLM-as-a-Judge 的核心优势所在
-
多源轨迹收集与标注:
- 功能:提供高质量、多样化的正负样本轨迹
- 核心思路:搜索域使用 Gemini、Grok、Perplexity 生成轨迹;DS 域从 MCPMark 获取多模型轨迹并标准化格式;GUI 域从 OSWorld 采集。刻意选择"成功轨迹步骤多、失败轨迹步骤少"的样本,打破轨迹长度与成功率的相关性。标签通过规则验证+人工复审双重保证
- 设计动机:多模型来源避免单一模型风格偏差,长度解耦防止 Judge 用轨迹长度作为捷径
-
环境重建与交互式评估:
- 功能:为 Judge Agent 提供可交互的真实环境
- 核心思路:DS 域在本地回放轨迹的最终环境状态;GUI 域在隔离 AWS 实例上重建。Judge Agent 从环境最终状态开始,通过工具调用(文件操作、数据库查询、GUI检查等)主动获取证据
- 设计动机:静态轨迹文本不足以可靠判断任务完成状态,实际交互环境是 Agent-as-a-Judge 区别于 LLM-as-a-Judge 的关键基础设施
损失函数 / 训练策略¶
AJ-Bench 是评估基准而非训练框架,使用 F1 分数作为主要评估指标。搜索域在单条目级别聚合后计算 F1,DS 和 GUI 域在轨迹级别计算 F1。所有结果取三次运行平均值。
实验关键数据¶
主实验¶
| 模型 | 是否Agentic | 搜索域 F1 | DS域 F1 | GUI域 F1 | 整体 F1 |
|---|---|---|---|---|---|
| gemini-3-pro | ✗ | 77.0 | 74.5 | 74.2 | 75.1 |
| gpt-5 | ✗ | 73.4 | 60.9 | 52.8 | 61.0 |
| deepseek-v3.2 | ✗ | 63.3 | 63.3 | 66.1 | 64.5 |
| gpt-5-mini | ✓ | 70.8 | 67.4 | 76.8 | 72.4 |
| deepseek-v3.2 | ✓ | 77.3 | 72.7 | 80.5 | 77.3 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 交互轮次=5 vs 20 | F1: ~65 vs ~77 | 更多交互轮次持续提升性能 |
| 仅可访问性树 | GUI F1 变化不一 | PPT 任务足够,Word 不够 |
| 仅截图 | Word F1 最佳 | 不同任务最优模态不同 |
| 混合模态 | Excel F1 最佳 | 多模态并不总是更好 |
关键发现¶
- Agent-as-a-Judge 比同模型的 LLM-as-a-Judge 平均提升约 13 个百分点 F1,在 GUI 域提升最大(可达 31 个百分点)
- 弱模型 + 工具使用 > 强模型无工具:gpt-5-mini (agentic) 整体 F1 72.4 超越 gpt-5 (non-agentic) 的 61.0
- 增加推理努力不一定提升 Agent-as-a-Judge 性能:deepseek-v3.2 的 thinking 模式反而比无 thinking 差 0.23 F1
- 多模态输入不总是有益:混合输入可能引入噪声,不同子任务的最优模态不同
亮点与洞察¶
- "弱模型+工具 > 强模型无工具"是一个重要发现,说明 Agent-as-a-Judge 的价值不在于模型能力本身,而在于环境交互带来的信息增益
- 增加推理努力反而可能降低性能的发现说明,Agent-as-a-Judge 需要的不是更深的思考,而是更好的工具使用能力
- 任务域的设计(搜索/DS/GUI)分别对应信息获取/状态验证/过程验证三种核心能力,为后续研究提供了清晰的能力分类框架
局限与展望¶
- 大部分任务改编自已有基准而非从零构建,覆盖面有限
- 搜索域依赖外部网络环境,网络不稳定影响评估一致性
- 当前绝对性能仍有较大提升空间(最佳 F1 约 0.77),Agent-as-a-Judge 远未饱和
- 未来可扩展到更多领域(如科学验证、代码审查)并增大数据规模用于训练
相关工作与启发¶
- vs RewardBench/RM-Bench: 这些基准评估 LLM-as-a-Judge,不涉及环境交互;AJ-Bench 首次系统评估环境感知的 Agent-as-a-Judge
- vs DevAI (Agent-as-a-Judge): DevAI 仅覆盖代码验证单一领域;AJ-Bench 覆盖三个领域且支持多模态
- vs AgentRewardBench: 评估 Judge 对 Agent 轨迹的判断但不提供环境交互能力
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统评估 Agent-as-a-Judge 的基准
- 实验充分度: ⭐⭐⭐⭐ 多模型对比、消融充分,但 agentic 模型数量受限
- 写作质量: ⭐⭐⭐⭐ 结构清晰,基准设计动机阐述充分
- 价值: ⭐⭐⭐⭐⭐ 填补了 Agent 评估基础设施的重要空白
相关论文¶
- [ICLR 2026] Don't Just Fine-tune the Agent, Tune the Environment
- [ICLR 2026] TRACED: Transition-aware Regret Approximation with Co-learnability for Environment Design
- [ICLR 2026] ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-Aware Speech-to-Speech Interaction
- [AAAI 2026] BAMAS: Structuring Budget-Aware Multi-Agent Systems
- [ICML 2025] Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination