AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite¶

会议: ICLR 2026 Oral
arXiv: 2510.21652
代码: 有（Allen Institute for AI / Semantic Scholar）
领域: AI Agent 评估
关键词: agent benchmarking, scientific research, reproducible evaluation, AI for science

一句话总结¶

由 AI2 团队构建的首个端到端科学研究 Agent 基准 AstaBench，包含 2400+ 问题覆盖科学发现全流程，配备生产级可复现搜索工具，评估了 57 个 Agent（22 类），发现尽管单任务有进展但 AI 距离完整科学研究助手仍很远，同时系统性修复先前基准的 5 大方法学缺陷。

研究背景与动机¶

领域现状：AI agents 在科学研究自动化（文献综述、实验复现、数据分析、方向探索）方面潜力巨大，已涌现出大量通用型（Deep Research）和专用型（AI Scientist, AIGS）系统。
现有 5 大缺陷：
(1) 缺乏整体度量：不能全面反映真实场景中的科研 agent 使用需求
(2) 缺乏可复现工具：不同 agent 使用不同搜索引擎，工具差异导致无法公平比较核心 agent 能力
(3) 混淆因素不可控：模型成本、工具权限等未标准化，无法区分"模型强"还是"工具强"
(4) 无标准化接口：缺乏统一的 agent 构建/评估框架，快速原型开发困难
(5) 基线严重不足：缺乏足够多的基线 agent，难以辨别真正的技术进步
核心矛盾：评估 agent 不仅要测"回答问题"能力，还需测"完整科研流程"能力，但后者远比前者复杂。
核心idea一句话：构建覆盖科学研究全流程、配备可控工具和全面基线的标准化 Agent 评估平台。

方法详解¶

整体框架¶

AstaBench 包含三大支柱：(1) 2400+ 问题集覆盖科研全流程；(2) 基于 Semantic Scholar 的生产级搜索环境；(3) 9 类 Asta agent 基线 + 标准化评估协议。

关键设计¶

问题集设计（2400+ 问题）：
跨多个科学领域（计算机科学、生物医学等）
覆盖科学发现全链条：文献检索→实验设计→数据分析→结论推导→研究方向提出
许多问题直接来源于真实用户对已部署 Asta agent 的请求，确保实际需求对齐
生产级搜索环境：
基于 Semantic Scholar API 构建可复现搜索工具
所有 agent 使用同一套工具接口，消除工具差异带来的评估偏倚
支持长期可复现（API 持续维护，非一次性爬取）
9 类 Asta Agent 基线：
针对科研任务优化的不同 agent 架构
提供从简单到复杂的完整基线谱系
开放供社区对比使用
受控评估协议：
标准化成本度量（控制模型调用次数/token 消耗）
统一工具访问权限
标准化接口支持快速 agent 原型开发

损失函数¶

评估采用多维度指标体系，包含准确性、完整性、引用质量等多个维度的自动评估与人工标注结合。

实验关键数据¶

主实验：57 Agent × 22 类评估¶

评估维度	覆盖范围	说明
Agent 数量	57 个	包含通用型和科研专用型
Agent 类别	22 类	涵盖不同架构和策略
问题数量	2400+	跨多领域多阶段
工具环境	Semantic Scholar API	生产级、可复现
基线类别	9 类 Asta agent	科研优化基线

先前基准缺陷对比¶

缺陷维度	先前基准	AstaBench
整体度量	❌ 碎片化，仅测单一子任务	✅ 全流程端到端评估
工具可复现性	❌ Agent 自带工具，不可控	✅ 统一 Semantic Scholar API
混淆因素控制	❌ 成本/工具差异未标准化	✅ 受控评估协议
标准化接口	❌ 缺乏通用 agent 接口	✅ 支持快速原型开发
基线充分度	❌ 基线不足，无法判断进步	✅ 9 类基线 + 57 agent 对比

关键发现¶

AI 在单独子任务（如文献检索、摘要生成）上表现尚可
在完整科研流程上距离人类专家差距巨大，说明"端到端科研能力"仍是开放挑战
提供了迄今最大规模的科研 Agent 基线对比
不同 agent 类别在不同科研阶段表现差异显著

亮点与洞察¶

系统性修复 5 大缺陷：不是渐进改进，而是从方法论层面重新定义了"如何正确评估科研 agent"
可复现性作为核心价值：使用持续维护的 Semantic Scholar API，而非一次性数据集，确保评估的长期有效性
问题来源于真实用户需求：许多问题直接取自已部署 Asta agent 的用户请求，避免了"为评估而评估"的脱节
评估规模空前：57 agent / 22 类的大规模对比为社区建立了可靠的性能参照系

局限性¶

科研领域覆盖可进一步扩展（如实验科学、临床研究、社会科学等）
评估偏向信息检索和文本推理，对实验设计/执行/仪器操作等能力的评估有限
依赖 Semantic Scholar 作为唯一搜索后端，可能对需要其他数据源（如专利库、临床试验数据库）的科研任务不够全面
评估指标对"创造性"维度（如提出新颖研究方向）的度量仍有待完善

评分¶

新颖性: ⭐⭐⭐⭐ 首个端到端科研 Agent 基准，方法论贡献突出
实验充分度: ⭐⭐⭐⭐⭐ 57 Agent/22 类/2400+ 问题，规模空前
写作质量: ⭐⭐⭐⭐ 问题定义和贡献陈述清晰
价值: ⭐⭐⭐⭐⭐ 为 AI-for-science Agent 研究提供标准化评估平台