AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning¶
会议: ICLR 2026
arXiv: 2504.02404
代码: MiliLab/AnesSuite
领域: 医疗AI / 大语言模型
关键词: anesthesiology, medical reasoning, benchmark, bilingual, System 1/2 reasoning, GRPO, SFT, domain-specific LLM
一句话总结¶
构建首个面向麻醉学推理的综合数据集套件AnesSuite——包括AnesBench(7972道双语选择题)、AnesCorpus(240万篇文档语料库)、AnesQA(2万条QA对)和AnesR1(1万条CoT推理数据),提出三级认知需求分类(System 1/1.x/2),训练的Morpheus模型(Qwen2.5 + SFT + GRPO)在7B参数下达到14B基线性能,揭示当前最强模型在复杂推理(System 2)上仍低于0.6。
研究背景与动机¶
-
医疗AI的推理需求:麻醉学涉及术前评估、药物管理、术中监测等多维度临床决策,要求模型具备精确的医学知识和复杂推理能力。
-
现有医疗基准的不足:现有医疗基准(如MedQA、PubMedQA)覆盖面广但缺乏麻醉学专项深度评测;对推理复杂度的分级也相对粗糙。
-
双语资源缺失:麻醉学的教材和临床指南在中英文间存在显著差异,现有数据集未能有效覆盖双语场景。
-
认知需求分级的价值:借鉴认知心理学中System 1(快速直觉)和System 2(慢速推理)的分类,对题目难度的分级有助于精确诊断模型能力瓶颈。
-
领域特化模型的探索:通用大模型在专业医学领域仍有明显短板,需要探索高效的领域适配策略。
-
训练策略缺乏系统比较:SFT、GRPO、CPT等训练策略在医疗领域的效果对比缺乏系统性实验。
方法详解¶
整体框架¶
AnesSuite包含四个互补组件,覆盖从评测到训练的完整链路:
| 组件 | 规模 | 功能 |
|---|---|---|
| AnesBench | 7,972道双语MCQ | 标准化评测基准 |
| AnesCorpus | 240万篇文档 | 持续预训练语料 |
| AnesQA | 2万条QA对 | 监督微调数据 |
| AnesR1 | 1万条CoT | 强化学习对齐数据 |
关键设计¶
- 三级认知需求分类
- 做什么:将7972道题目分为System 1(知识回忆)、System 1.x(混合推理)、System 2(复杂多步推理)三级
- 核心思路:System 1题目可直接从知识库检索答案;System 1.x需要简单的知识整合;System 2需要多步推理、条件判断和跨知识域综合
-
设计动机:精确定位模型在不同推理层次上的能力边界,避免简单题目掩盖深层推理不足
-
Morpheus训练流程
- 做什么:基于Qwen2.5构建Morpheus系列模型,采用SFT + GRPO两阶段训练
- 核心思路:先用AnesQA进行监督微调建立领域知识基础,再用AnesR1的CoT数据通过GRPO强化推理能力
-
设计动机:SFT提供知识注入,GRPO进一步激发推理潜力;7B模型通过此流程可匹配14B基线
-
双语对齐与质量控制
- 做什么:每道题目同时提供中英文版本,由医学专家审核
- 核心思路:从中英文麻醉学教材、考试题库和临床指南中并行抽取
- 设计动机:确保双语评测的公平性和一致性,避免翻译引入的偏差
实验关键数据¶
主实验¶
| 模型 | System 1 | System 1.x | System 2 | 总体 |
|---|---|---|---|---|
| GPT-4o | 0.72 | 0.65 | 0.58 | 0.65 |
| Claude-3.5 | 0.68 | 0.61 | 0.53 | 0.61 |
| Qwen2.5-14B | 0.61 | 0.54 | 0.42 | 0.52 |
| Qwen2.5-7B | 0.55 | 0.47 | 0.35 | 0.46 |
| Morpheus-7B (SFT) | 0.63 | 0.55 | 0.41 | 0.53 |
| Morpheus-7B (SFT+GRPO) | 0.67 | 0.59 | 0.47 | 0.58 |
消融实验¶
| 训练策略 | System 2 准确率 | vs Qwen2.5-7B提升 |
|---|---|---|
| 仅CPT (AnesCorpus) | 0.38 | +0.03 |
| 仅SFT (AnesQA) | 0.41 | +0.06 |
| SFT + GRPO | 0.47 | +0.12 |
| CPT + SFT | 0.40 | +0.05 |
| CPT + SFT + GRPO | 0.44 | +0.09 |
关键发现¶
- System 2是普遍瓶颈:即使GPT-4o在System 2上也仅约0.58,多数模型低于0.5。
- GRPO显著优于单独SFT:GRPO在System 2上带来额外6个百分点提升。
- 7B匹配14B:Morpheus-7B (SFT+GRPO)总体性能超越Qwen2.5-14B基线。
- CPT的跨语言风险:持续预训练在加入后反而略微降低了GRPO的增益,可能是中英文语料不平衡导致的灾难性遗忘。
- 双语差异:模型在英文题目上普遍比中文高2-4个百分点。
亮点与洞察¶
- 首创性:首个面向麻醉学的综合数据集套件,填补了医疗AI在专科评测上的空白。
- 三级认知分类:System 1/1.x/2的分级框架可推广到其他医学专科。
- 训练策略洞察:GRPO > SFT的发现对医疗领域模型训练有重要参考价值。
- 小模型逆袭:7B通过适当训练策略达到14B性能的结果具有实际部署意义。
局限性 / 可改进方向¶
- 单一专科:仅覆盖麻醉学,向其他医学专科的推广需要额外数据构建。
- 评测形式单一:以选择题为主,缺乏开放式临床决策场景的评测。
- CPT策略未充分优化:CPT的负面效果可能与语料配比或训练超参有关,值得进一步探索。
- 临床验证缺失:未在真实临床场景中评估模型的辅助决策能力。
相关工作与启发¶
- 医疗基准:MedQA (Jin et al., 2021), PubMedQA (Jin et al., 2019), CMExam (Liu et al., 2024)
- 医疗LLM:Med-PaLM (Singhal et al., 2023), HuatuoGPT (Zhang et al., 2023)
- 推理强化:GRPO (Shao et al., 2024) 在数学/代码领域的成功经验
- 认知心理学:Kahneman (2011) 的System 1/System 2理论框架
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个麻醉学综合套件,认知分级有创新
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多策略、多维度的系统评测
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据集构建流程详尽
- 价值: ⭐⭐⭐⭐ 对医疗AI领域和领域适配研究有重要参考