Expert-Guided Prompting and Retrieval-Augmented Generation for Emergency Medical Service Question Answering¶
会议: AAAI2026
arXiv: 2511.10900
代码: EMSQA
领域: 医学NLP / RAG
关键词: RAG, chain-of-thought, EMS, domain expertise, MCQA
一句话总结¶
构建首个EMS急救领域多选QA数据集EMSQA(24.3K题、10个临床主题、4个认证等级),提出Expert-CoT和ExpertRAG框架将领域专业属性注入LLM推理与检索,比标准RAG最高提升4.59%准确率。
研究背景与动机¶
领域现状:LLM在通用医学QA(MedQA、MedMCQA)上已表现出色,CoT推理和RAG检索是两种主流性能提升手段。
现有痛点:现有方法将推理和检索视为无差别的通用过程——模型看到问题后直接推理或检索,不区分问题涉及的具体临床领域(如创伤、气道管理、药理学)和认证等级(EMR/EMT/AEMT/Paramedic)。然而,真实的医疗专业人员在解题时,总是先判断问题属于哪个学科领域,再从对应的专业知识体系出发进行推理。
核心矛盾:EMS急救领域缺乏公开的QA数据集和结构化知识库,且现有CoT/RAG方法没有机制来利用问题级别的专业属性(subject area + certification level)指导推理和检索。
本文解决方案:构建EMSQA数据集和配套知识库,训练轻量Filter分类器推断问题的专业属性,然后通过Expert-CoT将属性注入提示模板引导推理、通过ExpertRAG按属性过滤知识库实现精准检索。核心idea是将"领域专家的认知流程"形式化为可注入LLM的显式信号。
方法详解¶
整体框架¶
三阶段pipeline:(1) 数据与知识构建——EMSQA数据集(24.3K MCQA)+ 分主题知识库(40K文档、2M tokens)+ 400万条NEMSIS患者记录;(2) Filter分类器——用LoRA微调LLM推断每道题的subject area和certification level;(3) 推理增强——Expert-CoT将属性注入提示模板、ExpertRAG按属性过滤检索范围,两者可组合使用。
关键设计¶
-
Filter分类器(专业属性推断):
- 功能:从输入问题和选项中自动推断subject area(10类,multi-label)和certification level(4类,single-label)
- 核心思路:在LLM末尾追加
<classify>token,提取最后一层hidden state \(h_i\),通过两个分类head \(W_{sub}\) 和 \(W_{lvl}\) 分别输出预测。联合损失 \(\mathcal{L} = w_{sub} \cdot \text{BCE}(p_i^{sub}, y_i^{sub}) + w_{lvl} \cdot \text{CE}(p_i^{lvl}, y_i^{lvl})\),用DWA动态调整两个任务的权重。推理时subject area用阈值0.5二值化,certification level取argmax - 设计动机:需要一个轻量模块在推理前快速判断问题的专业属性,LoRA fine-tuning仅需少量参数(rank=8),且multi-task训练让两个属性互相增强
-
Expert-CoT(专业引导提示):
- 功能:将Filter预测的subject area \(\hat{s}_i\) 和certification level \(\hat{l}_i\) 嵌入CoT提示模板,引导LLM从特定领域视角推理
- 核心思路:标准CoT鼓励"step-by-step"但不指定起点,Expert-CoT显式提供领域起点。最终答案 \(\hat{A}_i = f^{\text{CoT-Expert}}(q_i, \mathcal{O}_i, \hat{l}_i, \hat{s}_i)\),模板中包含"You are an expert in {subject area} at {certification level}"等引导语
- 设计动机:模拟真实医疗专业人员的思维流程——先定位学科领域,再从对应知识体系出发推理,而非无差别地通用推理
-
ExpertRAG(专业引导检索):
- 功能:利用Filter预测的subject area过滤知识库和患者记录,实现领域对齐的检索增强生成
- 核心思路:三种策略——Global(全库检索,baseline)、FTR(Filter-then-Retrieve,先按 \(\hat{s}_i\) 过滤KB/PR再检索top-M/N)、RTF(Retrieve-then-Filter,先检索10倍候选再过滤)。最终 \(\hat{A}_i = f^{\text{RAG}}(q_i, \mathcal{O}_i, \mathcal{R}(q_i, \hat{s}_i), \hat{l}_i, \hat{s}_i)\),使用MedCPT作为检索器,KB取top-32、PR取top-8
- 设计动机:通用RAG检索全库会引入大量无关文档稀释相关性,按subject area分区检索相当于给检索器加上了领域先验,显著提高文档相关率
损失函数 / 训练策略¶
Filter用AdamW优化器(weight decay 0.01),LoRA参数 \(r=8, \alpha=16\),dropout 0.05,序列长度128。DWA温度 \(T=2\) 动态调整多任务权重。LLM推理阶段无额外训练,仅通过prompt工程和检索增强。在NVIDIA H200 GPU上运行。
实验关键数据¶
主实验¶
| 模型 | 方法 | Public Acc | Public F1 | Private Acc | Private F1 |
|---|---|---|---|---|---|
| Qwen3-32B | 0-shot | 83.55 | 83.55 | 85.11 | 85.89 |
| Qwen3-32B | CoT | 84.96 | 84.97 | 88.78 | 90.13 |
| Qwen3-32B | Expert-CoT (Filter) | 85.57 | 85.60 | 89.50 | 91.20 |
| OpenAI-o3 | 0-shot | 92.39 | 92.39 | — | — |
| Qwen3-4B | Global RAG + CoT | 78.12 | 79.17 | 75.46 | 76.87 |
| Qwen3-4B | ExpertRAG-GT RTF + Expert-CoT | 82.24 | 82.26 | 80.51 | 81.16 |
| Qwen3-4B | ExpertRAG-Filter RTF + Expert-CoT | 80.95 | 80.96 | 79.47 | 80.22 |
消融实验¶
| 配置 | Public Acc | Private Acc | 说明 |
|---|---|---|---|
| Qwen3-4B 0-shot(无RAG) | 70.99 | 69.88 | 纯LLM基线 |
| + CoT | 72.35 | 70.58 | +1.36 |
| + Global RAG + CoT | 78.12 | 75.46 | RAG提升显著 |
| + Global RAG + Expert-CoT | 79.59 | 76.75 | Expert-CoT额外+1.47 |
| + ExpertRAG-GT FTR + Expert-CoT | 81.62 | 80.40 | 分区检索+3.50 vs Global |
| + ExpertRAG-GT RTF + Expert-CoT | 82.24 | 80.51 | RTF略优于FTR |
关键发现¶
- Expert-CoT比vanilla CoT稳定提升1-2%,在弱模型(OpenBioLLM)上提升更大(+2.05%),在强模型(Qwen3-32B)上提升约0.6%
- ExpertRAG + Expert-CoT组合比标准RAG最高提升4.59%准确率,两个增强手段有叠加效果
- Filter分类器subject area miF约80%、certification level miF约66%,即使存在分类误差仍能带来显著提升
- 使用Ground-truth expertise比Filter预测高约1.3%,说明Filter仍有改进空间
- Qwen3-32B + Expert-CoT通过了全部4个等级的NREMT认证模拟考试
亮点与洞察¶
- 将"领域专家的认知流程"形式化为可计算的属性注入机制,思路简洁但系统性好,且具有跨领域迁移潜力(法律、金融等专业领域可复用相同框架)。
- EMSQA是首个覆盖多认证等级、配有结构化KB和真实患者记录的EMS QA数据集,数据集本身具有长期基准价值。
- RTF策略(先大范围检索再按属性过滤)略优于FTR策略(先过滤再检索),暗示检索与过滤的顺序对效果有微妙影响——先检索保留了跨领域相关文档的可能性。
局限与展望¶
- Filter分类器准确率有限(subject area miF≈80%),误分类会传播到后续模块,可探索不确定性感知的软过滤
- 仅用Qwen3-4B做RAG实验,未在更大模型上验证ExpertRAG效果是否仍显著
- 数据集部分来自收费网站仅开放公开部分,限制了可复现性
- 知识库缺少certification level标注,无法实现更精细的认证等级对齐检索
- 仅评估多选QA场景,未扩展到开放式问答或临床决策支持
相关工作与启发¶
- vs MedRAG:MedRAG使用通用医学语料做hybrid sparse-dense检索(74.31%),ExpertRAG通过领域对齐KB高约8%,证明分区检索的优势
- vs i-MedRAG:i-MedRAG通过迭代query改写提升(77.96%),与ExpertRAG的subject area过滤路径正交,两者可组合
- vs Self-BioRAG:Self-BioRAG在EMSQA上仅55.71%,说明通用生物领域RAG不适用于EMS这种细分专业领域
评分¶
- 新颖性: ⭐⭐⭐ 核心idea直觉(把expertise注入CoT/RAG),但系统构建完整
- 实验充分度: ⭐⭐⭐⭐ 多模型、多RAG baseline对比,含认证考试实测
- 写作质量: ⭐⭐⭐⭐ 图表清晰,数据集构建过程详尽
- 价值: ⭐⭐⭐⭐ 数据集有持续价值,expertise注入框架可推广
相关论文¶
- [AAAI 2026] Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering
- [ACL 2025] Towards Omni-RAG: Comprehensive Retrieval-Augmented Generation for Large Language Models in Medical Applications
- [ACL 2025] MedBioRAG: Semantic Search and Retrieval-Augmented Generation with Large Language Models for Medical and Biological QA
- [ACL 2026] Query Pipeline Optimization for Cancer Patient Question Answering Systems
- [ACL 2026] HypEHR: Hyperbolic Modeling of Electronic Health Records for Efficient Question Answering