AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite¶
会议: ICLR 2026 Oral
arXiv: 2510.21652
代码: 有(Allen Institute for AI / Semantic Scholar)
领域: AI Agent 评估
关键词: agent benchmarking, scientific research, reproducible evaluation, AI for science
一句话总结¶
由 AI2 团队构建的首个端到端科学研究 Agent 基准 AstaBench,包含 2400+ 问题覆盖科学发现全流程,配备生产级可复现搜索工具,评估了 57 个 Agent(22 类),发现尽管单任务有进展但 AI 距离完整科学研究助手仍很远,同时系统性修复先前基准的 5 大方法学缺陷。
研究背景与动机¶
- 领域现状:AI agents 在科学研究自动化(文献综述、实验复现、数据分析、方向探索)方面潜力巨大,已涌现出大量通用型(Deep Research)和专用型(AI Scientist, AIGS)系统。
- 现有 5 大缺陷:
- (1) 缺乏整体度量:不能全面反映真实场景中的科研 agent 使用需求
- (2) 缺乏可复现工具:不同 agent 使用不同搜索引擎,工具差异导致无法公平比较核心 agent 能力
- (3) 混淆因素不可控:模型成本、工具权限等未标准化,无法区分"模型强"还是"工具强"
- (4) 无标准化接口:缺乏统一的 agent 构建/评估框架,快速原型开发困难
- (5) 基线严重不足:缺乏足够多的基线 agent,难以辨别真正的技术进步
- 核心矛盾:评估 agent 不仅要测"回答问题"能力,还需测"完整科研流程"能力,但后者远比前者复杂。
- 核心idea一句话:构建覆盖科学研究全流程、配备可控工具和全面基线的标准化 Agent 评估平台。
方法详解¶
整体框架¶
AstaBench 包含三大支柱:(1) 2400+ 问题集覆盖科研全流程;(2) 基于 Semantic Scholar 的生产级搜索环境;(3) 9 类 Asta agent 基线 + 标准化评估协议。
关键设计¶
- 问题集设计(2400+ 问题):
- 跨多个科学领域(计算机科学、生物医学等)
- 覆盖科学发现全链条:文献检索→实验设计→数据分析→结论推导→研究方向提出
-
许多问题直接来源于真实用户对已部署 Asta agent 的请求,确保实际需求对齐
-
生产级搜索环境:
- 基于 Semantic Scholar API 构建可复现搜索工具
- 所有 agent 使用同一套工具接口,消除工具差异带来的评估偏倚
-
支持长期可复现(API 持续维护,非一次性爬取)
-
9 类 Asta Agent 基线:
- 针对科研任务优化的不同 agent 架构
- 提供从简单到复杂的完整基线谱系
-
开放供社区对比使用
-
受控评估协议:
- 标准化成本度量(控制模型调用次数/token 消耗)
- 统一工具访问权限
- 标准化接口支持快速 agent 原型开发
损失函数¶
评估采用多维度指标体系,包含准确性、完整性、引用质量等多个维度的自动评估与人工标注结合。
实验关键数据¶
主实验:57 Agent × 22 类评估¶
| 评估维度 | 覆盖范围 | 说明 |
|---|---|---|
| Agent 数量 | 57 个 | 包含通用型和科研专用型 |
| Agent 类别 | 22 类 | 涵盖不同架构和策略 |
| 问题数量 | 2400+ | 跨多领域多阶段 |
| 工具环境 | Semantic Scholar API | 生产级、可复现 |
| 基线类别 | 9 类 Asta agent | 科研优化基线 |
先前基准缺陷对比¶
| 缺陷维度 | 先前基准 | AstaBench |
|---|---|---|
| 整体度量 | ❌ 碎片化,仅测单一子任务 | ✅ 全流程端到端评估 |
| 工具可复现性 | ❌ Agent 自带工具,不可控 | ✅ 统一 Semantic Scholar API |
| 混淆因素控制 | ❌ 成本/工具差异未标准化 | ✅ 受控评估协议 |
| 标准化接口 | ❌ 缺乏通用 agent 接口 | ✅ 支持快速原型开发 |
| 基线充分度 | ❌ 基线不足,无法判断进步 | ✅ 9 类基线 + 57 agent 对比 |
关键发现¶
- AI 在单独子任务(如文献检索、摘要生成)上表现尚可
- 在完整科研流程上距离人类专家差距巨大,说明"端到端科研能力"仍是开放挑战
- 提供了迄今最大规模的科研 Agent 基线对比
- 不同 agent 类别在不同科研阶段表现差异显著
亮点与洞察¶
- 系统性修复 5 大缺陷:不是渐进改进,而是从方法论层面重新定义了"如何正确评估科研 agent"
- 可复现性作为核心价值:使用持续维护的 Semantic Scholar API,而非一次性数据集,确保评估的长期有效性
- 问题来源于真实用户需求:许多问题直接取自已部署 Asta agent 的用户请求,避免了"为评估而评估"的脱节
- 评估规模空前:57 agent / 22 类的大规模对比为社区建立了可靠的性能参照系
局限性¶
- 科研领域覆盖可进一步扩展(如实验科学、临床研究、社会科学等)
- 评估偏向信息检索和文本推理,对实验设计/执行/仪器操作等能力的评估有限
- 依赖 Semantic Scholar 作为唯一搜索后端,可能对需要其他数据源(如专利库、临床试验数据库)的科研任务不够全面
- 评估指标对"创造性"维度(如提出新颖研究方向)的度量仍有待完善
相关工作¶
- vs AI Scientist / AIGS:这些是科研 agent 系统本身,AstaBench 提供了评估它们的标准化平台
- vs SWE-bench / HumanEval:这些聚焦代码生成/修复,AstaBench 覆盖更广泛的科研任务链
- vs Deep Research 系统:通用研究 agent 可直接在 AstaBench 上评估,与科研专用 agent 公平对比
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个端到端科研 Agent 基准,方法论贡献突出
- 实验充分度: ⭐⭐⭐⭐⭐ 57 Agent/22 类/2400+ 问题,规模空前
- 写作质量: ⭐⭐⭐⭐ 问题定义和贡献陈述清晰
- 价值: ⭐⭐⭐⭐⭐ 为 AI-for-science Agent 研究提供标准化评估平台