MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science¶
会议: ICLR 2026 Oral
arXiv: 2506.04405
代码: 有
领域: 医学AI / Agent训练
关键词: biomedical data science, agentic training, code-centric reasoning, RL for agents, Med-Copilot
一句话总结¶
构建了首个统一的生物医学数据科学 Agent 训练环境 MedAgentGym,包含 72,413 个任务实例(12 个真实场景、129 个类别),配备可执行沙盒和可验证 ground truth,基准评估 29 个 LLM,并通过离线/在线 RL 训练出 Med-Copilot(分别 +43%/+45% 提升),达到与 GPT-4o 竞争的性能同时保持成本效益和隐私保护。
研究背景与动机¶
- 领域现状:生物医学数据科学需要复杂的代码编写和推理能力,但缺乏统一的 Agent 训练基础设施。
- 现有痛点:现有医学 AI 基准多为静态评估,不支持交互式训练;开源模型与闭源 LLM 差距大。
- 核心idea一句话:构建大规模可交互训练环境 + RL 训练管道,缩小开源模型与闭源 LLM 在生物医学编码任务上的差距。
方法详解¶
关键设计¶
- 72,413 任务实例:12 真实场景 × 129 类别,覆盖基因组分析、临床数据处理、医学图像分析等
- 可执行沙盒:安全的代码执行环境+交互式反馈+可验证 ground truth
- 多线程多轮轨迹生成:高效生成训练数据
- RL 训练管道:离线 RL(从轨迹学习)+ 在线 RL(与环境交互学习)
实验关键数据¶
| 方法 | 提升 |
|---|---|
| Med-Copilot (离线 RL) | +43.02% |
| Med-Copilot (在线 RL) | +45.28% |
| 29 LLM 基准评估 | 商业/开源差距显著 |
- Med-Copilot 与 GPT-4o 性能竞争
- 成本效益高且保护隐私(本地部署)
亮点与洞察¶
- 训练 + 评估一体化:不仅是基准也是训练环境,RL 训练管道直接可用
- 实际缩小差距:开源模型通过 RL 训练达到闭源水平是重要的实际证明
局限性 / 可改进方向¶
- 任务以编码为中心,临床推理和诊断决策能力评估不足
- 需要标准化的 ground truth,对开放式探索性研究不适用
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个统一的生物医学 Agent 训练环境
- 实验充分度: ⭐⭐⭐⭐⭐ 72K 任务 + 29 LLM + RL 训练验证
- 写作质量: ⭐⭐⭐⭐ 系统描述清晰
- 价值: ⭐⭐⭐⭐⭐ 为生物医学 AI Agent 研究提供了关键基础设施