跳转至

AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

会议: ICLR 2026 Oral
arXiv: 2510.21652
代码: 有(Allen Institute for AI / Semantic Scholar)
领域: AI Agent 评估
关键词: agent benchmarking, scientific research, reproducible evaluation, AI for science

一句话总结

由 AI2 团队构建的首个端到端科学研究 Agent 基准 AstaBench,包含 2400+ 问题覆盖科学发现全流程,配备生产级可复现搜索工具,评估了 57 个 Agent(22 类),发现尽管单任务有进展但 AI 距离完整科学研究助手仍很远,同时系统性修复先前基准的 5 大方法学缺陷。

研究背景与动机

  1. 领域现状:AI agents 在科学研究自动化(文献综述、实验复现、数据分析、方向探索)方面潜力巨大,已涌现出大量通用型(Deep Research)和专用型(AI Scientist, AIGS)系统。
  2. 现有 5 大缺陷
  3. (1) 缺乏整体度量:不能全面反映真实场景中的科研 agent 使用需求
  4. (2) 缺乏可复现工具:不同 agent 使用不同搜索引擎,工具差异导致无法公平比较核心 agent 能力
  5. (3) 混淆因素不可控:模型成本、工具权限等未标准化,无法区分"模型强"还是"工具强"
  6. (4) 无标准化接口:缺乏统一的 agent 构建/评估框架,快速原型开发困难
  7. (5) 基线严重不足:缺乏足够多的基线 agent,难以辨别真正的技术进步
  8. 核心矛盾:评估 agent 不仅要测"回答问题"能力,还需测"完整科研流程"能力,但后者远比前者复杂。
  9. 核心idea一句话:构建覆盖科学研究全流程、配备可控工具和全面基线的标准化 Agent 评估平台。

方法详解

整体框架

AstaBench 包含三大支柱:(1) 2400+ 问题集覆盖科研全流程;(2) 基于 Semantic Scholar 的生产级搜索环境;(3) 9 类 Asta agent 基线 + 标准化评估协议。

关键设计

  1. 问题集设计(2400+ 问题)
  2. 跨多个科学领域(计算机科学、生物医学等)
  3. 覆盖科学发现全链条:文献检索→实验设计→数据分析→结论推导→研究方向提出
  4. 许多问题直接来源于真实用户对已部署 Asta agent 的请求,确保实际需求对齐

  5. 生产级搜索环境

  6. 基于 Semantic Scholar API 构建可复现搜索工具
  7. 所有 agent 使用同一套工具接口,消除工具差异带来的评估偏倚
  8. 支持长期可复现(API 持续维护,非一次性爬取)

  9. 9 类 Asta Agent 基线

  10. 针对科研任务优化的不同 agent 架构
  11. 提供从简单到复杂的完整基线谱系
  12. 开放供社区对比使用

  13. 受控评估协议

  14. 标准化成本度量(控制模型调用次数/token 消耗)
  15. 统一工具访问权限
  16. 标准化接口支持快速 agent 原型开发

损失函数

评估采用多维度指标体系,包含准确性、完整性、引用质量等多个维度的自动评估与人工标注结合。

实验关键数据

主实验:57 Agent × 22 类评估

评估维度 覆盖范围 说明
Agent 数量 57 个 包含通用型和科研专用型
Agent 类别 22 类 涵盖不同架构和策略
问题数量 2400+ 跨多领域多阶段
工具环境 Semantic Scholar API 生产级、可复现
基线类别 9 类 Asta agent 科研优化基线

先前基准缺陷对比

缺陷维度 先前基准 AstaBench
整体度量 ❌ 碎片化,仅测单一子任务 ✅ 全流程端到端评估
工具可复现性 ❌ Agent 自带工具,不可控 ✅ 统一 Semantic Scholar API
混淆因素控制 ❌ 成本/工具差异未标准化 ✅ 受控评估协议
标准化接口 ❌ 缺乏通用 agent 接口 ✅ 支持快速原型开发
基线充分度 ❌ 基线不足,无法判断进步 ✅ 9 类基线 + 57 agent 对比

关键发现

  • AI 在单独子任务(如文献检索、摘要生成)上表现尚可
  • 完整科研流程上距离人类专家差距巨大,说明"端到端科研能力"仍是开放挑战
  • 提供了迄今最大规模的科研 Agent 基线对比
  • 不同 agent 类别在不同科研阶段表现差异显著

亮点与洞察

  • 系统性修复 5 大缺陷:不是渐进改进,而是从方法论层面重新定义了"如何正确评估科研 agent"
  • 可复现性作为核心价值:使用持续维护的 Semantic Scholar API,而非一次性数据集,确保评估的长期有效性
  • 问题来源于真实用户需求:许多问题直接取自已部署 Asta agent 的用户请求,避免了"为评估而评估"的脱节
  • 评估规模空前:57 agent / 22 类的大规模对比为社区建立了可靠的性能参照系

局限性

  • 科研领域覆盖可进一步扩展(如实验科学、临床研究、社会科学等)
  • 评估偏向信息检索和文本推理,对实验设计/执行/仪器操作等能力的评估有限
  • 依赖 Semantic Scholar 作为唯一搜索后端,可能对需要其他数据源(如专利库、临床试验数据库)的科研任务不够全面
  • 评估指标对"创造性"维度(如提出新颖研究方向)的度量仍有待完善

相关工作

  • vs AI Scientist / AIGS:这些是科研 agent 系统本身,AstaBench 提供了评估它们的标准化平台
  • vs SWE-bench / HumanEval:这些聚焦代码生成/修复,AstaBench 覆盖更广泛的科研任务链
  • vs Deep Research 系统:通用研究 agent 可直接在 AstaBench 上评估,与科研专用 agent 公平对比

评分

  • 新颖性: ⭐⭐⭐⭐ 首个端到端科研 Agent 基准,方法论贡献突出
  • 实验充分度: ⭐⭐⭐⭐⭐ 57 Agent/22 类/2400+ 问题,规模空前
  • 写作质量: ⭐⭐⭐⭐ 问题定义和贡献陈述清晰
  • 价值: ⭐⭐⭐⭐⭐ 为 AI-for-science Agent 研究提供标准化评估平台