跳转至

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning

会议: ICLR 2026
arXiv: 2504.02404
代码: MiliLab/AnesSuite
领域: 医疗AI / 大语言模型
关键词: anesthesiology, medical reasoning, benchmark, bilingual, System 1/2 reasoning, GRPO, SFT, domain-specific LLM

一句话总结

构建首个面向麻醉学推理的综合数据集套件AnesSuite——包括AnesBench(7972道双语选择题)、AnesCorpus(240万篇文档语料库)、AnesQA(2万条QA对)和AnesR1(1万条CoT推理数据),提出三级认知需求分类(System 1/1.x/2),训练的Morpheus模型(Qwen2.5 + SFT + GRPO)在7B参数下达到14B基线性能,揭示当前最强模型在复杂推理(System 2)上仍低于0.6。

研究背景与动机

  1. 医疗AI的推理需求:麻醉学涉及术前评估、药物管理、术中监测等多维度临床决策,要求模型具备精确的医学知识和复杂推理能力。

  2. 现有医疗基准的不足:现有医疗基准(如MedQA、PubMedQA)覆盖面广但缺乏麻醉学专项深度评测;对推理复杂度的分级也相对粗糙。

  3. 双语资源缺失:麻醉学的教材和临床指南在中英文间存在显著差异,现有数据集未能有效覆盖双语场景。

  4. 认知需求分级的价值:借鉴认知心理学中System 1(快速直觉)和System 2(慢速推理)的分类,对题目难度的分级有助于精确诊断模型能力瓶颈。

  5. 领域特化模型的探索:通用大模型在专业医学领域仍有明显短板,需要探索高效的领域适配策略。

  6. 训练策略缺乏系统比较:SFT、GRPO、CPT等训练策略在医疗领域的效果对比缺乏系统性实验。

方法详解

整体框架

AnesSuite包含四个互补组件,覆盖从评测到训练的完整链路:

组件 规模 功能
AnesBench 7,972道双语MCQ 标准化评测基准
AnesCorpus 240万篇文档 持续预训练语料
AnesQA 2万条QA对 监督微调数据
AnesR1 1万条CoT 强化学习对齐数据

关键设计

  1. 三级认知需求分类
  2. 做什么:将7972道题目分为System 1(知识回忆)、System 1.x(混合推理)、System 2(复杂多步推理)三级
  3. 核心思路:System 1题目可直接从知识库检索答案;System 1.x需要简单的知识整合;System 2需要多步推理、条件判断和跨知识域综合
  4. 设计动机:精确定位模型在不同推理层次上的能力边界,避免简单题目掩盖深层推理不足

  5. Morpheus训练流程

  6. 做什么:基于Qwen2.5构建Morpheus系列模型,采用SFT + GRPO两阶段训练
  7. 核心思路:先用AnesQA进行监督微调建立领域知识基础,再用AnesR1的CoT数据通过GRPO强化推理能力
  8. 设计动机:SFT提供知识注入,GRPO进一步激发推理潜力;7B模型通过此流程可匹配14B基线

  9. 双语对齐与质量控制

  10. 做什么:每道题目同时提供中英文版本,由医学专家审核
  11. 核心思路:从中英文麻醉学教材、考试题库和临床指南中并行抽取
  12. 设计动机:确保双语评测的公平性和一致性,避免翻译引入的偏差

实验关键数据

主实验

模型 System 1 System 1.x System 2 总体
GPT-4o 0.72 0.65 0.58 0.65
Claude-3.5 0.68 0.61 0.53 0.61
Qwen2.5-14B 0.61 0.54 0.42 0.52
Qwen2.5-7B 0.55 0.47 0.35 0.46
Morpheus-7B (SFT) 0.63 0.55 0.41 0.53
Morpheus-7B (SFT+GRPO) 0.67 0.59 0.47 0.58

消融实验

训练策略 System 2 准确率 vs Qwen2.5-7B提升
仅CPT (AnesCorpus) 0.38 +0.03
仅SFT (AnesQA) 0.41 +0.06
SFT + GRPO 0.47 +0.12
CPT + SFT 0.40 +0.05
CPT + SFT + GRPO 0.44 +0.09

关键发现

  1. System 2是普遍瓶颈:即使GPT-4o在System 2上也仅约0.58,多数模型低于0.5。
  2. GRPO显著优于单独SFT:GRPO在System 2上带来额外6个百分点提升。
  3. 7B匹配14B:Morpheus-7B (SFT+GRPO)总体性能超越Qwen2.5-14B基线。
  4. CPT的跨语言风险:持续预训练在加入后反而略微降低了GRPO的增益,可能是中英文语料不平衡导致的灾难性遗忘。
  5. 双语差异:模型在英文题目上普遍比中文高2-4个百分点。

亮点与洞察

  1. 首创性:首个面向麻醉学的综合数据集套件,填补了医疗AI在专科评测上的空白。
  2. 三级认知分类:System 1/1.x/2的分级框架可推广到其他医学专科。
  3. 训练策略洞察:GRPO > SFT的发现对医疗领域模型训练有重要参考价值。
  4. 小模型逆袭:7B通过适当训练策略达到14B性能的结果具有实际部署意义。

局限性 / 可改进方向

  1. 单一专科:仅覆盖麻醉学,向其他医学专科的推广需要额外数据构建。
  2. 评测形式单一:以选择题为主,缺乏开放式临床决策场景的评测。
  3. CPT策略未充分优化:CPT的负面效果可能与语料配比或训练超参有关,值得进一步探索。
  4. 临床验证缺失:未在真实临床场景中评估模型的辅助决策能力。

相关工作与启发

  • 医疗基准:MedQA (Jin et al., 2021), PubMedQA (Jin et al., 2019), CMExam (Liu et al., 2024)
  • 医疗LLM:Med-PaLM (Singhal et al., 2023), HuatuoGPT (Zhang et al., 2023)
  • 推理强化:GRPO (Shao et al., 2024) 在数学/代码领域的成功经验
  • 认知心理学:Kahneman (2011) 的System 1/System 2理论框架

评分

  • 新颖性: ⭐⭐⭐⭐ 首个麻醉学综合套件,认知分级有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多策略、多维度的系统评测
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数据集构建流程详尽
  • 价值: ⭐⭐⭐⭐ 对医疗AI领域和领域适配研究有重要参考