MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?¶
会议: NeurIPS 2025
arXiv: 2504.09702
代码: https://huggingface.co/spaces/launch/MLRC_Bench
领域: Agent
关键词: Language Agents, ML Research, Benchmark, Innovation Assessment, Repository-Level Code
一句话总结¶
基于真实 ML 会议竞赛构建动态基准 MLRC-Bench,评估 LLM Agent 提出和实现新颖研究方法的能力,发现最强 Agent(Gemini)仅达人类顶级方案 9.3% 的相对改进,且提供 AI/人类想法并不能一致改善实现质量。
研究背景与动机¶
- 领域现状:对 LLM 研究 Agent 的评估分两类——端到端发现(AI Scientist,依赖 LLM-as-judge)和 Kaggle 竞赛(缺创新要求),都无法同时衡量新颖性和有效性。
- 现有痛点:评估主观、仅处理单脚本、缺计算约束、无法动态更新。
- 核心矛盾:LLM-judged 新颖性与实际性能存在明显错位。
- 本文要解决什么:用 ML 竞赛排行榜分数客观评估 Agent 研究创新能力。
- 切入角度:ML 竞赛天然有未解决问题、公开排行榜、可与人类比较。
- 核心 idea 一句话:用竞赛客观分数替代 LLM-as-judge 评估 AI 研究能力。
方法详解¶
整体框架¶
模块化 Agent 无关环境:统一项目布局,Agent 仅改 methods/,评估脚本只读,测试集不可见。
关键设计¶
- 仓库级代码要求:统一 ML 项目结构,要求处理完整研究项目而非单脚本
- 开发/测试分离:Agent 基于开发集优化,隐藏测试集评估,防止过拟合
- 三维度评估:有效性(竞赛指标)+ 效率(时间)+ 简洁性(代码行数),标准化为相对改进度
实验关键数据¶
主实验¶
| Agent | 平均相对改进 | 最佳任务 | 最差任务 |
|---|---|---|---|
| MLAB (Gemini-exp) | 9.3% | 降雨预测 43.1% | 时序定位 -0.5% |
| MLAB (Llama-405B) | 6.3% | 降雨预测 31.5% | 元学习 -4.9% |
消融:想法提示的效果¶
| 条件 | 效果 |
|---|---|
| + AI 想法 | 不一致改善,部分下降 |
| + 人类想法 | 同上,实现是瓶颈 |
关键发现¶
- 最强 Agent 仅达人类 9.3%,距自动化 ML 研究差距巨大
- 想法≠实现,代码工程化是主要瓶颈
- 任务差异大:数据驱动任务好,领域知识密集任务差
亮点与洞察¶
- 客观排行榜评估替代 LLM-as-judge,动态更新避免饱和
- 首次展示 LLM-judged 新颖性与实际性能的错位
局限性 / 可改进方向¶
- 仅 7 个任务,多数 Agent 框架需适配仓库级结构
- 预算约束(单次 8h A100)可能限制复杂任务
相关工作与启发¶
- vs AI Scientist: 客观 vs 主观评估
- vs MLE-Bench: 要求创新 vs 仅实现
- vs RE-Bench: 动态更新 vs 静态覆盖
评分¶
- 新颖性: ⭐⭐⭐⭐ 客观评估 AI 研究能力是重要创新
- 实验充分度: ⭐⭐⭐ 7 任务受预算限制
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰
- 价值: ⭐⭐⭐⭐ 9.3% 的结果对社区有警示意义