AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning¶

会议: ICLR 2026
arXiv: 2504.02404
代码: MiliLab/AnesSuite
领域: 医疗AI / 大语言模型
关键词: anesthesiology, medical reasoning, benchmark, bilingual, System 1/2 reasoning, GRPO, SFT, domain-specific LLM

一句话总结¶

构建首个面向麻醉学推理的综合数据集套件AnesSuite——包括AnesBench（7972道双语选择题）、AnesCorpus（240万篇文档语料库）、AnesQA（2万条QA对）和AnesR1（1万条CoT推理数据），提出三级认知需求分类（System 1/1.x/2），训练的Morpheus模型（Qwen2.5 + SFT + GRPO）在7B参数下达到14B基线性能，揭示当前最强模型在复杂推理（System 2）上仍低于0.6。

研究背景与动机¶

医疗AI的推理需求：麻醉学涉及术前评估、药物管理、术中监测等多维度临床决策，要求模型具备精确的医学知识和复杂推理能力。
现有医疗基准的不足：现有医疗基准（如MedQA、PubMedQA）覆盖面广但缺乏麻醉学专项深度评测；对推理复杂度的分级也相对粗糙。
双语资源缺失：麻醉学的教材和临床指南在中英文间存在显著差异，现有数据集未能有效覆盖双语场景。
认知需求分级的价值：借鉴认知心理学中System 1（快速直觉）和System 2（慢速推理）的分类，对题目难度的分级有助于精确诊断模型能力瓶颈。
领域特化模型的探索：通用大模型在专业医学领域仍有明显短板，需要探索高效的领域适配策略。
训练策略缺乏系统比较：SFT、GRPO、CPT等训练策略在医疗领域的效果对比缺乏系统性实验。

方法详解¶

整体框架¶

AnesSuite包含四个互补组件，覆盖从评测到训练的完整链路：

组件	规模	功能
AnesBench	7,972道双语MCQ	标准化评测基准
AnesCorpus	240万篇文档	持续预训练语料
AnesQA	2万条QA对	监督微调数据
AnesR1	1万条CoT	强化学习对齐数据

关键设计¶

三级认知需求分类
做什么：将7972道题目分为System 1（知识回忆）、System 1.x（混合推理）、System 2（复杂多步推理）三级
核心思路：System 1题目可直接从知识库检索答案；System 1.x需要简单的知识整合；System 2需要多步推理、条件判断和跨知识域综合
设计动机：精确定位模型在不同推理层次上的能力边界，避免简单题目掩盖深层推理不足
Morpheus训练流程
做什么：基于Qwen2.5构建Morpheus系列模型，采用SFT + GRPO两阶段训练
核心思路：先用AnesQA进行监督微调建立领域知识基础，再用AnesR1的CoT数据通过GRPO强化推理能力
设计动机：SFT提供知识注入，GRPO进一步激发推理潜力；7B模型通过此流程可匹配14B基线
双语对齐与质量控制
做什么：每道题目同时提供中英文版本，由医学专家审核
核心思路：从中英文麻醉学教材、考试题库和临床指南中并行抽取
设计动机：确保双语评测的公平性和一致性，避免翻译引入的偏差

实验关键数据¶

主实验¶

模型	System 1	System 1.x	System 2	总体
GPT-4o	0.72	0.65	0.58	0.65
Claude-3.5	0.68	0.61	0.53	0.61
Qwen2.5-14B	0.61	0.54	0.42	0.52
Qwen2.5-7B	0.55	0.47	0.35	0.46
Morpheus-7B (SFT)	0.63	0.55	0.41	0.53
Morpheus-7B (SFT+GRPO)	0.67	0.59	0.47	0.58

消融实验¶

训练策略	System 2 准确率	vs Qwen2.5-7B提升
仅CPT (AnesCorpus)	0.38	+0.03
仅SFT (AnesQA)	0.41	+0.06
SFT + GRPO	0.47	+0.12
CPT + SFT	0.40	+0.05
CPT + SFT + GRPO	0.44	+0.09

关键发现¶

System 2是普遍瓶颈：即使GPT-4o在System 2上也仅约0.58，多数模型低于0.5。
GRPO显著优于单独SFT：GRPO在System 2上带来额外6个百分点提升。
7B匹配14B：Morpheus-7B (SFT+GRPO)总体性能超越Qwen2.5-14B基线。
CPT的跨语言风险：持续预训练在加入后反而略微降低了GRPO的增益，可能是中英文语料不平衡导致的灾难性遗忘。
双语差异：模型在英文题目上普遍比中文高2-4个百分点。

亮点与洞察¶

首创性：首个面向麻醉学的综合数据集套件，填补了医疗AI在专科评测上的空白。
三级认知分类：System 1/1.x/2的分级框架可推广到其他医学专科。
训练策略洞察：GRPO > SFT的发现对医疗领域模型训练有重要参考价值。
小模型逆袭：7B通过适当训练策略达到14B性能的结果具有实际部署意义。

局限性 / 可改进方向¶

单一专科：仅覆盖麻醉学，向其他医学专科的推广需要额外数据构建。
评测形式单一：以选择题为主，缺乏开放式临床决策场景的评测。
CPT策略未充分优化：CPT的负面效果可能与语料配比或训练超参有关，值得进一步探索。
临床验证缺失：未在真实临床场景中评估模型的辅助决策能力。

评分¶

新颖性: ⭐⭐⭐⭐ 首个麻醉学综合套件，认知分级有创新
实验充分度: ⭐⭐⭐⭐⭐ 多模型、多策略、多维度的系统评测
写作质量: ⭐⭐⭐⭐ 结构清晰，数据集构建流程详尽
价值: ⭐⭐⭐⭐ 对医疗AI领域和领域适配研究有重要参考