MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science¶

会议: ICLR 2026 Oral
arXiv: 2506.04405
代码: 有
领域: 医学AI / Agent训练
关键词: biomedical data science, agentic training, code-centric reasoning, RL for agents, Med-Copilot

一句话总结¶

构建了首个统一的生物医学数据科学 Agent 训练环境 MedAgentGym，包含 72,413 个任务实例（12 个真实场景、129 个类别），配备可执行沙盒和可验证 ground truth，基准评估 29 个 LLM，并通过离线/在线 RL 训练出 Med-Copilot（分别 +43%/+45% 提升），达到与 GPT-4o 竞争的性能同时保持成本效益和隐私保护。

研究背景与动机¶

领域现状：生物医学数据科学需要复杂的代码编写和推理能力，但缺乏统一的 Agent 训练基础设施。
现有痛点：现有医学 AI 基准多为静态评估，不支持交互式训练；开源模型与闭源 LLM 差距大。
核心idea一句话：构建大规模可交互训练环境 + RL 训练管道，缩小开源模型与闭源 LLM 在生物医学编码任务上的差距。

方法详解¶

关键设计¶

72,413 任务实例：12 真实场景 × 129 类别，覆盖基因组分析、临床数据处理、医学图像分析等
可执行沙盒：安全的代码执行环境+交互式反馈+可验证 ground truth
多线程多轮轨迹生成：高效生成训练数据
RL 训练管道：离线 RL（从轨迹学习）+ 在线 RL（与环境交互学习）

实验关键数据¶

方法	提升
Med-Copilot (离线 RL)	+43.02%
Med-Copilot (在线 RL)	+45.28%
29 LLM 基准评估	商业/开源差距显著

Med-Copilot 与 GPT-4o 性能竞争
成本效益高且保护隐私（本地部署）

亮点与洞察¶

训练 + 评估一体化：不仅是基准也是训练环境，RL 训练管道直接可用
实际缩小差距：开源模型通过 RL 训练达到闭源水平是重要的实际证明

局限性 / 可改进方向¶

任务以编码为中心，临床推理和诊断决策能力评估不足
需要标准化的 ground truth，对开放式探索性研究不适用

评分¶

新颖性: ⭐⭐⭐⭐ 首个统一的生物医学 Agent 训练环境
实验充分度: ⭐⭐⭐⭐⭐ 72K 任务 + 29 LLM + RL 训练验证
写作质量: ⭐⭐⭐⭐ 系统描述清晰
价值: ⭐⭐⭐⭐⭐ 为生物医学 AI Agent 研究提供了关键基础设施