MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?¶

会议: NeurIPS 2025
arXiv: 2504.09702
代码: https://huggingface.co/spaces/launch/MLRC_Bench
领域: Agent
关键词: Language Agents, ML Research, Benchmark, Innovation Assessment, Repository-Level Code

一句话总结¶

基于真实 ML 会议竞赛构建动态基准 MLRC-Bench，评估 LLM Agent 提出和实现新颖研究方法的能力，发现最强 Agent（Gemini）仅达人类顶级方案 9.3% 的相对改进，且提供 AI/人类想法并不能一致改善实现质量。

研究背景与动机¶

领域现状：对 LLM 研究 Agent 的评估分两类——端到端发现（AI Scientist，依赖 LLM-as-judge）和 Kaggle 竞赛（缺创新要求），都无法同时衡量新颖性和有效性。
现有痛点：评估主观、仅处理单脚本、缺计算约束、无法动态更新。
核心矛盾：LLM-judged 新颖性与实际性能存在明显错位。
本文要解决什么：用 ML 竞赛排行榜分数客观评估 Agent 研究创新能力。
切入角度：ML 竞赛天然有未解决问题、公开排行榜、可与人类比较。
核心 idea 一句话：用竞赛客观分数替代 LLM-as-judge 评估 AI 研究能力。

方法详解¶

整体框架¶

模块化 Agent 无关环境：统一项目布局，Agent 仅改 methods/，评估脚本只读，测试集不可见。

关键设计¶

仓库级代码要求：统一 ML 项目结构，要求处理完整研究项目而非单脚本
开发/测试分离：Agent 基于开发集优化，隐藏测试集评估，防止过拟合
三维度评估：有效性（竞赛指标）+ 效率（时间）+ 简洁性（代码行数），标准化为相对改进度

实验关键数据¶

主实验¶

Agent	平均相对改进	最佳任务	最差任务
MLAB (Gemini-exp)	9.3%	降雨预测 43.1%	时序定位 -0.5%
MLAB (Llama-405B)	6.3%	降雨预测 31.5%	元学习 -4.9%

消融：想法提示的效果¶

条件	效果
+ AI 想法	不一致改善，部分下降
+ 人类想法	同上，实现是瓶颈

关键发现¶

最强 Agent 仅达人类 9.3%，距自动化 ML 研究差距巨大
想法≠实现，代码工程化是主要瓶颈
任务差异大：数据驱动任务好，领域知识密集任务差

亮点与洞察¶

客观排行榜评估替代 LLM-as-judge，动态更新避免饱和
首次展示 LLM-judged 新颖性与实际性能的错位

局限性 / 可改进方向¶

仅 7 个任务，多数 Agent 框架需适配仓库级结构
预算约束（单次 8h A100）可能限制复杂任务

评分¶

新颖性: ⭐⭐⭐⭐ 客观评估 AI 研究能力是重要创新
实验充分度: ⭐⭐⭐ 7 任务受预算限制
写作质量: ⭐⭐⭐⭐ 问题定义清晰
价值: ⭐⭐⭐⭐ 9.3% 的结果对社区有警示意义