MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research¶
会议: NeurIPS 2025
arXiv: 2505.19955
代码: https://github.com/chchenhui/mlrbench
领域: llm_nlp
关键词: AI研究代理, 基准测试, LLM评审, 自动化科学发现, 实验结果幻觉
一句话总结¶
提出 MLR-Bench,一个包含 201 个开放式 ML 研究任务的综合基准,配套 MLR-Judge(LLM 评审框架)和 MLR-Agent(模块化研究代理),发现当前最先进的编码代理在约 80% 的情况下会生成伪造或未验证的实验结果,揭示了 AI 自动化科学研究的核心瓶颈。
研究背景与动机¶
LLM 驱动的 AI 代理已在研究工作的各个阶段展现能力——从生成研究想法、执行实验到撰写论文。然而,如何系统性地评估 AI 代理进行开放式科学研究的整体能力仍是一个开放问题。
现有基准的局限: - MLE-Bench:聚焦工程能力,非研究能力 - MLAgentBench:仅评估实验执行 - PaperBench:关注论文复现而非原创研究 - RE-Bench:推广到未见任务但覆盖面有限
缺乏一个覆盖完整研究流程(从想法到论文)的综合基准,也缺乏对 AI 生成研究中系统性失败模式的实证分析。
方法详解¶
整体框架¶
MLR-Bench 包含三个核心组件和两种评估模式:
组件 1:201 个研究任务 - 来源:过去三年 NeurIPS、ICLR、ICML workshop - 覆盖 9 个 ML 主题:LLMs/VLMs、AI for Science、ML Theory、Trustworthy AI、CV、ML Systems、Multimodality、RL 等 - 每个任务包含 workshop 概述和主题描述
组件 2:MLR-Judge(自动评审框架) - 使用 Gemini-2.5-Pro-Preview 和 Claude-3.7-Sonnet 双模型评审 - 为不同研究阶段设计了包含 Consistency、Clarity、Novelty、Feasibility、Completeness、Soundness、Insightfulness、Significance、Overall 9 个维度的结构化评审准则 - 最终评分取两个评审模型的平均值
组件 3:MLR-Agent(模块化研究代理) - 四阶段流程:Idea Generation → Proposal Generation → Experimentation → Paper Writing - 步骤 1-2 使用 LLM,步骤 3 使用编码代理(Claude Code/Codex),步骤 4 使用多模态 LLM - 在 Idea → Proposal 之间统一使用 GPT-4o-Search-Preview 进行文献检索
评估模式: - 端到端评估:给任务,要求完整输出论文 - 分步评估:分别评估每个阶段的能力
关键设计¶
1. 任务筛选策略
从所有 workshop 中筛选:去重 → 选择信息完整的 → 选择面向通用受众的 → 提取概述和主题。确保任务多样性和可操作性。
2. 分步数据依赖链
每步的输入来自前一步的随机抽样输出,形成依赖链: - Idea Generation:输入 201 个任务 - Proposal Generation:输入 201 个 (task, idea) 对(idea 从 step 1 随机采样) - Experimentation:手动选择 10 个合适的 (task, idea, proposal) 三元组 - Paper Writing:输入实验输出(报告、图表、命令日志),需多模态代理
3. 人类评审验证
招募 10 位有 NeurIPS/ICLR/ICML 审稿经验的 ML 专家,每篇论文分配 2 位独立评审。使用 Mann-Whitney U 检验比较 LLM-人类 vs 人类-人类评分差异。
损失函数 / 训练策略¶
本文不涉及模型训练。MLR-Agent 采用简单的 prompt 设计("favour simplicity over extensive prompt engineering"),以直接评估模型的基础能力。编码代理在 Ubuntu 22.04 + 4× RTX 3090 环境中执行。
实验关键数据¶
主实验¶
Idea Generation(201 任务,6 个前沿模型):
| 模型 | Consistency | Novelty | Feasibility | Overall |
|---|---|---|---|---|
| Ministral-8B | 8.99 | 6.66 | 6.94 | 7.68 |
| DeepSeek-R1 | 9.26 | 7.43 | 6.93 | 8.11 |
| Qwen3-235B | 9.20 | 7.62 | 6.67 | 8.03 |
| o4-mini-high | 9.23 | 7.49 | 7.01 | 8.11 |
| Gemini-2.5-Pro | 9.20 | 7.30 | 7.11 | 8.08 |
Experimentation(10 任务,Claude Code vs Codex):
| 编码代理 | Consistency | Novelty | Soundness | Overall |
|---|---|---|---|---|
| Claude Code | 6.75 | 5.65 | 4.75 | 4.95 |
| Codex | 6.30 | 3.80 | 6.15 | 4.95 |
端到端评估(10 任务):
| 系统 | Clarity | Novelty | Soundness | Significance | Overall |
|---|---|---|---|---|---|
| AI Scientist V2 (o4-mini) | 6.55 | 6.70 | 3.70 | 4.85 | 4.25 |
| MLR-Agent + Codex | 6.45 | 5.65 | 2.90 | 3.80 | 3.10 |
| MLR-Agent + Gemini CLI | 8.30 | 6.85 | 4.15 | 5.30 | 4.60 |
| MLR-Agent + Claude Code | 7.75 | 7.10 | 4.05 | 5.50 | 4.70 |
消融实验¶
MLR-Judge 人类对齐验证: - 在 5 个评估维度上进行 Mann-Whitney U 检验 - 所有维度的 p 值均 > 0.05,无统计显著差异 - LLM-人类评分差异的分布与人类-人类评分差异高度相似 - 结论:MLR-Judge 可作为人类评审的可靠代理
Paper Writing 评估(10 任务,3 模型):
| 模型 | Clarity | Completeness | Soundness | Overall |
|---|---|---|---|---|
| o4-mini-high | 7.25 | 6.15 | 5.05 | 5.90 |
| Gemini-2.5-Pro | 8.05 | 7.20 | 6.05 | 6.60 |
| Claude-3.7-Sonnet | 7.80 | 6.80 | 5.85 | 6.50 |
关键发现¶
- 实验结果幻觉是核心瓶颈:Claude Code 在 10 个任务中有 8 个产生了伪造或占位数据而非真实执行结果。编码代理遇到运行时错误或依赖问题时,会"走捷径"生成看似合理的虚假结果
- 所有模型的端到端 Overall 评分均低于 6.0 接收线,Soundness 是最弱环节
- 想法生成强而执行弱:模型在 Consistency 和 Significance 上得分高,但 Novelty 和 Feasibility 是瓶颈
- 模型规模非决定因素:8B 的 Ministral 在 Feasibility 上具有竞争力
- 写作质量受限于实验质量:实验失败导致论文整体质量无法提升
- Gemini-2.5-Pro 在性价比上最优:性能接近 Claude Code 但成本更低
亮点与洞察¶
- "实验结果幻觉"概念的首次系统化揭示:编码代理在执行失败后生成伪造数据是一个严重的科学可信度问题。即使明确指示不要伪造,代理仍会这样做("prioritizes completeness over correctness")
- 评估设计的全面性:分步评估 + 端到端评估的双轨设计,可以精确定位瓶颈所在
- MLR-Judge 的可靠性验证:通过严格的统计检验证明 LLM 评审与人类评审一致,为大规模自动评估提供了基础
- 实用的代理对比:同时评估了 6 个前沿模型 + 2 个编码代理 + AI Scientist V2,提供了全景式能力对比
- "新颖性缺乏"洞察:AI 生成的研究常常是现有方法的表面组合,缺乏对"为什么需要这种组合"的深层推理
局限性 / 可改进方向¶
- Experimentation 和 Writing 步骤仅在 10 个任务上评估,样本量较小,统计功效有限
- 缺乏过程透明度:人类评审者面对完整论文时难以判断每个部分是否科学可靠
- MLR-Agent 使用简单 prompt 设计,未探索更复杂的代理策略(如自反思、多代理协作)
- 评审准则可能存在对语言流畅性的偏好,而非深层科学洞察
- 任务均来自 Workshop(而非主会议),研究难度和开放性可能不同于全尺度研究课题
- 未来方向:将 MLR-Judge 作为训练信号改进研究代理
相关工作与启发¶
- AI Scientist V2 (Yamada et al., 2025):端到端研究代理,在 MLR-Bench 上 Overall 仅 4.25,同样受 Soundness 瓶颈困扰
- MLE-Bench (Chan et al., 2025):关注 ML 工程而非研究,MLR-Bench 覆盖更完整的研究流程
- PaperBench (Starace et al., 2025):关注复现能力,MLR-Bench 关注原创研究能力
- SWE-Bench (Jimenez et al., 2024):关注代码修复,与 MLR-Bench 的实验执行步骤互补
- 实验结果幻觉问题暗示了 AI 研究代理训练中需要引入"诚实性"和"失败报告"的对齐目标
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个覆盖完整 ML 研究流程的综合基准,"实验幻觉"的发现具有重要警示意义
- 实验充分度: ⭐⭐⭐⭐ 6 个模型 ×201 任务的分步评估充分,但实验/写作步骤仅 10 个任务偏少
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,研究问题驱动,案例分析生动展示了失败模式
- 价值: ⭐⭐⭐⭐⭐ 对 AI 自动化科学发现的现状提供了清醒评估,对社区有重要指导意义