AAAR-1.0: Assessing AI's Potential to Assist Research¶

会议: ICML 2025
arXiv: 2410.22394
代码: https://renzelou.github.io/AAAR-1.0/
领域: 人类理解
关键词: LLM评测基准, AI辅助科研, 论文审稿, 实验设计, 研究能力评估

一句话总结¶

提出 AAAR-1.0 基准，通过公式推断、实验设计、论文弱点发现、审稿质量鉴别四个专家级任务，系统评估 LLM 辅助科研的真实能力，揭示当前模型在深度研究任务上仍有显著不足。

研究背景与动机¶

LLM 在日常任务（邮件、问答、创作）上已展现出色能力，但研究人员的核心工作——如头脑风暴研究想法、设计实验、撰写/审阅论文——是否也能被 LLM 有效辅助？现有工作（如 AI-Scientist、LLM 生成 idea）大多聚焦于高度主观的端到端任务链，评估成本高且难以复现。本文的核心动机有三：

缺乏面向单步研究任务的系统基准：已有基准多关注代码实现和模型训练（MLAgentBench 等），忽略了 idea 生成、实验规划、论文审稿等认知密集型环节。

需要可自动化的评估指标：生成 idea 等任务需要大量人工评估（Si et al., 2024），阻碍了大规模对比。

单步任务透明度更高：相比复杂任务链，单步任务有明确的输入输出预期，能更精确地定位模型能力边界。

方法详解¶

整体框架¶

AAAR-1.0 将科研人员的日常活动解构为四个独立且专家级的任务，每个任务均有清晰的输入/输出定义和配套的自动评估指标：

任务	缩写	输入	输出	能力考察
公式推断	EqInfer	论文上下文 + 公式	正确/错误（二分类）	局部上下文推理、符号理解
实验设计	ExpDesign	实验前论文内容（含图）	实验列表 + 动机解释	高层实验规划、领域知识
论文弱点	Weakness	完整论文（含图表）	弱点列表	批判性分析、深度审稿
审稿鉴别	ReviewCritique	论文 + 审稿意见 + rebuttal	每段审稿是否有缺陷	元审稿能力、高级研究经验

关键设计¶

任务一：EquationInference（公式推断）¶

数据构建四阶段流水线：

数据爬取与清洗：从 ACL Anthology（2019-2023）获取 1,762 篇已发表论文的 LaTeX 源码，用正则提取 3,877 个人类撰写的正例公式。选择 LaTeX 源码而非 PDF 解析，避免 PyMuPDF 等工具引入噪声。
LLM 合成负例：针对每个正例公式，用 GPT-4 基于论文上下文合成 3 个错误公式（高温度解码以保证多样性）。
LLM 过滤：用 GPT-4 识别"上下文不对齐"的负例（例如出现论文中未定义的符号），剔除全部 3 个负例都有快捷线索的样本，保留 1,449 个正例。
专家审核：5 位资深博士生使用 TeXlive 等工具编译验证，检查每对正负例是否满足：(a) 语法正确；(b) 编译后负例确实与正例不同。每对样本至少 2 人交叉审查，最终保留 1,049 个正例（淘汰 27.6%）。

任务设计亮点：设计为二分类而非多选，因实验表明二分类对 LLM 更具挑战性。

任务二：ExperimentDesign（实验设计）¶

高标准标注流程：

数据源：从 arXiv 爬取 10k+ 论文（cs.AI/CL/CV，2018-2023），仅保留顶会论文。
领域专家标注：设严格门槛——资深博士、至少 1 篇顶会论文、4 年以上研究经验、频繁担任审稿人。10 位专家各标注 10 篇，每篇标注所有关键实验及动机解释。
多轮同行讨论：每篇标注结果由另一位专家 review，检查：实验是否遗漏、摘要是否覆盖关键信息、解释是否合理。迭代讨论直至双方达成一致。
信息泄露处理：用 GPT-4 删除输入中可能泄露实验的句子（约 9.8% 被删除）。

最终收集 100 个实例，输入为实验前论文上下文（含图片），输出为专家标注的实验计划和解释列表。

任务三：PaperWeakness（论文弱点发现）¶

数据源：从 OpenReview 爬取 ICLR 2023 的 3,779 篇匿名投稿，均匀采样 1,000 篇（500 接收 + 500 拒稿），覆盖全部 13 个 track。
弱点提取：用 GPT-4 从审稿意见中提取弱点，保留原始审稿人文本不做修改。对同一审稿人重复提及的弱点保留不去重（体现重要性）。
输入处理：因 OpenReview 论文多无 LaTeX 源码，使用 VILA 解析 PDF 文本，PDFFigures-2.0 提取图表。最终 993 个实例。

任务四：ReviewCritique（审稿鉴别）¶

复用 Du et al. (2024) 的数据集：100 篇论文、380 份审稿，每份审稿分解为句级段落（共 11,376 段），由 40+ 位 AI 研究专家标注每段是否存在缺陷并给出解释。这是四个任务中对高级研究经验要求最高的任务。

损失函数 / 训练策略¶

本文为评测基准而非训练方法，核心创新在于自动评估指标设计：

EqInfer 评估：标准 F1 分数（二分类），随机猜测基线约 40%。

ExpDesign 评估——基于蕴含的 Precision/Recall：

En-Precision：对预测实验列表中每个条目，用 LLM（GPT-4o）判断是否被 ground-truth 列表蕴含
En-Recall：对 ground-truth 中每个条目，用 LLM 判断是否被预测列表蕴含
S-Match：用 SentenceBERT 计算预测解释与 ground-truth 解释的语义相似度

Weakness 评估——多审稿人语义匹配：

S-Precision：预测弱点与每位审稿人的弱点列表取 max 语义相似度后对审稿人取均值
S-Recall：每位审稿人的弱点与预测弱点列表取 max 后对审稿人取均值

这种指标设计保留了多审稿人视角的结构信息，避免简单合并丢失多样性。

ReviewCritique 评估：分类 F1 分数，评估模型对每个审稿段落的缺陷判断准确性。

实验关键数据¶

主实验¶

任务	指标	最佳模型	最佳得分	随机/基线	备注
EqInfer	F1	顶级闭源LLM	~46%	40%	仅略高于随机猜测
ExpDesign	En-Precision	GPT-4 系列	中等	—	创新但不可行实验多
Weakness	S-Precision	GPT-4 系列	中等	—	弱点缺乏深度和针对性
ReviewCritique	F1	顶级闭源LLM	较低	—	难以识别缺陷审稿

消融实验¶

配置	关键指标	说明
开源 vs 闭源 LLM	各任务 F1/Precision/Recall	闭源模型整体优于开源，但差距在缩小
LaTeX 源码 vs PDF 解析文本	EqInfer F1	LaTeX 源码作为输入噪声更低、信息更丰富
有/无图片输入	ExpDesign 指标	图片输入对实验设计任务有一定帮助
不同 prompt 策略	各任务指标	任务特定 prompt 优于通用 prompt
负例过滤前后	EqInfer 难度	过滤掉浅层快捷线索后任务难度显著提升
多审稿人 vs 单审稿人评估	Weakness S-Precision	多审稿人结构化评估更公平全面

关键发现¶

EqInfer：绝大多数 LLM 的 F1 仅略高于 40% 的随机基线（最高约 46%），说明即便仅需局部上下文推理，LLM 在公式理解方面仍极为薄弱。
ExpDesign：LLM 设计的实验比人类更多样和创新，但大量实验是平凡的（trivial）、缺乏可行性，且偏离原始研究目标。
Weakness：LLM 发现的论文弱点缺乏深度和针对性，倾向生成"万金油"式的模糊弱点，可套用于任何论文，缺乏领域特定知识。
ReviewCritique：LLM 难以有效识别有缺陷的审稿意见，表明其在辅助元审稿方面能力有限。

亮点与洞察¶

任务拆解思路优秀：将科研流程解构为独立可测的单步任务，避免了端到端评估的不可控性，为后续研究提供了清晰的能力诊断框架。
数据质量把控严格：四阶段流水线（爬取→合成→过滤→专家审核）确保每个任务的数据质量，EqInfer 的 27.6% 淘汰率体现了严格标准。
评估指标设计精巧：ExpDesign 的蕴含式 Precision/Recall 和 Weakness 的多审稿人语义匹配巧妙解决了自由文本评估的难题，兼顾了效率和公平性。
伦理立场清晰：强调 LLM 应辅助初级研究者获得不完美但有洞察的建议，而非取代人类主导整个研究过程。

局限与展望¶

数据规模有限：ExpDesign 仅 100 个实例、ReviewCritique 仅 100 篇论文，可能不足以支撑鲁棒的统计结论。
领域覆盖偏窄：主要聚焦 AI/NLP/CV 领域（ACL、ICLR 的论文），未覆盖其他学科。
评估指标的局限：依赖 GPT-4o 作为 ExpDesign 评估器引入了 LLM 自身偏差；SentenceBERT 的语义相似度可能无法捕捉细粒度学术差异。
缺少多模态深度测试：虽然 ExpDesign 和 Weakness 包含图片输入，但未充分探索视觉理解对科研任务的影响。
时效性挑战：基准数据来源截至 2023 年，随着 LLM 快速迭代，需要持续更新以保持评估效力。

评分¶

维度	分数 (1-5)	说明
新颖性	⭐⭐⭐⭐	首个系统化的单步科研任务基准，任务设计新颖
技术深度	⭐⭐⭐⭐	数据构建流程严谨，评估指标设计精巧
实验充分度	⭐⭐⭐	覆盖多种 LLM，但部分任务数据量偏少
实用价值	⭐⭐⭐⭐	为 AI 辅助科研提供了可量化的评估工具
写作质量	⭐⭐⭐⭐	结构清晰，动机阐述充分
总分	⭐⭐⭐⭐	优秀的基准论文，填补了科研任务评估的空白