跳转至

MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

会议: NeurIPS 2025
arXiv: 2504.09702
代码: https://huggingface.co/spaces/launch/MLRC_Bench
领域: Agent
关键词: Language Agents, ML Research, Benchmark, Innovation Assessment, Repository-Level Code

一句话总结

基于真实 ML 会议竞赛构建动态基准 MLRC-Bench,评估 LLM Agent 提出和实现新颖研究方法的能力,发现最强 Agent(Gemini)仅达人类顶级方案 9.3% 的相对改进,且提供 AI/人类想法并不能一致改善实现质量。

研究背景与动机

  1. 领域现状:对 LLM 研究 Agent 的评估分两类——端到端发现(AI Scientist,依赖 LLM-as-judge)和 Kaggle 竞赛(缺创新要求),都无法同时衡量新颖性和有效性。
  2. 现有痛点:评估主观、仅处理单脚本、缺计算约束、无法动态更新。
  3. 核心矛盾:LLM-judged 新颖性与实际性能存在明显错位。
  4. 本文要解决什么:用 ML 竞赛排行榜分数客观评估 Agent 研究创新能力。
  5. 切入角度:ML 竞赛天然有未解决问题、公开排行榜、可与人类比较。
  6. 核心 idea 一句话:用竞赛客观分数替代 LLM-as-judge 评估 AI 研究能力。

方法详解

整体框架

模块化 Agent 无关环境:统一项目布局,Agent 仅改 methods/,评估脚本只读,测试集不可见。

关键设计

  1. 仓库级代码要求:统一 ML 项目结构,要求处理完整研究项目而非单脚本
  2. 开发/测试分离:Agent 基于开发集优化,隐藏测试集评估,防止过拟合
  3. 三维度评估:有效性(竞赛指标)+ 效率(时间)+ 简洁性(代码行数),标准化为相对改进度

实验关键数据

主实验

Agent 平均相对改进 最佳任务 最差任务
MLAB (Gemini-exp) 9.3% 降雨预测 43.1% 时序定位 -0.5%
MLAB (Llama-405B) 6.3% 降雨预测 31.5% 元学习 -4.9%

消融:想法提示的效果

条件 效果
+ AI 想法 不一致改善,部分下降
+ 人类想法 同上,实现是瓶颈

关键发现

  • 最强 Agent 仅达人类 9.3%,距自动化 ML 研究差距巨大
  • 想法≠实现,代码工程化是主要瓶颈
  • 任务差异大:数据驱动任务好,领域知识密集任务差

亮点与洞察

  • 客观排行榜评估替代 LLM-as-judge,动态更新避免饱和
  • 首次展示 LLM-judged 新颖性与实际性能的错位

局限性 / 可改进方向

  • 仅 7 个任务,多数 Agent 框架需适配仓库级结构
  • 预算约束(单次 8h A100)可能限制复杂任务

相关工作与启发

  • vs AI Scientist: 客观 vs 主观评估
  • vs MLE-Bench: 要求创新 vs 仅实现
  • vs RE-Bench: 动态更新 vs 静态覆盖

评分

  • 新颖性: ⭐⭐⭐⭐ 客观评估 AI 研究能力是重要创新
  • 实验充分度: ⭐⭐⭐ 7 任务受预算限制
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰
  • 价值: ⭐⭐⭐⭐ 9.3% 的结果对社区有警示意义