EMR-AGENT: Automating Cohort and Feature Extraction from EMR Databases¶
会议: ICLR 2026
arXiv: 2510.00549
代码: 有
领域: 医学图像
关键词: 电子病历, LLM Agent, 队列选择, 特征提取, 代码映射
一句话总结¶
提出EMR-AGENT,首个基于LLM Agent的电子病历(EMR)自动化预处理框架,通过动态SQL交互替代手工规则编写,实现跨数据库的队列选择、特征提取和代码映射,在MIMIC-III/eICU/SICdb上表现优异并具强泛化能力。
研究背景与动机¶
临床预测模型依赖从EMR中提取的结构化数据,但这一过程仍被硬编码、数据库特定的流水线主导,涉及队列定义、特征选择和代码映射三大步骤。这带来两大核心挑战:
挑战1:跨机构语义和结构异质性。不同医院EMR系统差异极大。例如"心率"在MIMIC-III中是itemid=211,在SICdb中是HeartRateECG,在eICU中是列名heartrate。这导致模型在跨数据库部署时的可比性和泛化性严重受限。
挑战2:同一数据库内的不一致性。同一临床概念可能有多种测量方式(如心率可通过传感器、听诊、触诊获得),导致多种代码映射。队列选择标准的模糊性(如"首次ICU入院"的不同解读)也造成不同研究选出不同患者群体。
现有解决方案(YAIB、ACES、BlendedICU等)要么依赖硬编码规则缺乏灵活性,要么依赖预定义输入格式限制泛化性。核心问题:能否用AI agent替代人工规则编写,实现自动化EMR预处理?
方法详解¶
整体框架¶
EMR-AGENT由两个LLM Agent组成,共享一个Schema链接与指南生成前端模块:
- CFSA(队列与特征选择Agent):自动化患者队列选择和临床变量提取
- CMA(代码映射Agent):标准化不同EMR系统的临床特征代码
核心理念:将SQL视为探索和决策工具,而非仅作为最终查询输出。Agent通过迭代观察查询结果、推理schema和文档来完成预处理任务。
关键设计¶
1. Schema链接与指南生成
与传统仅依赖schema信息的链接不同,该模块利用多种知识源(数据库手册、评估备忘录)增强schema理解:
- 为CFSA:明确每个schema组件的角色,标识缺失信息,规划SQL观测
- 为CMA:定义每个表和列的角色以实现准确的候选列表
2. CFSA的三阶段交互循环
- SQL充分性评估:判断当前schema和指南是否足以生成目标SQL。不足则生成观察SQL获取额外数据
- 数据充分性检查:评估观察SQL返回的数据是否改善了schema理解
- Schema更新:将新获取的数据整合到schema和指南中
然后进入SQL生成和错误反馈循环: - 语法错误 → 直接重新生成 - Schema不匹配(语法正确但语义错误)→ 回到Schema链接步骤 - 正确结果 → 完成提取
3. CMA的候选匹配
- 特征定位:先在schema中直接搜索目标特征列名
- 候选列表:若直接搜索失败,从schema确定可能包含特征的表和列,执行DISTINCT查询获取所有候选组合
- 目标与候选匹配:批量比较用户请求特征与候选,计算相似度分数(0-100),双阈值策略(先80后90)
损失函数 / 训练策略¶
EMR-AGENT是基于推理的Agent框架,不涉及训练,而是依赖:
- 问题分解策略:将复杂EMR预处理任务分解为可管理的子问题
- 温度调度:CFSA允许最多10次观察,前5次温度0,之后每次+0.1增加探索性
- 错误反馈最多5次重试
- LLM骨干:Claude-3.5-Sonnet作为主力模型
实验关键数据¶
主实验¶
队列与特征选择(F1/Accuracy)
| 方法 | MIMIC-III F1 | eICU F1 | SICdb F1 |
|---|---|---|---|
| EMR-AGENT | 0.940 | 0.929 | 0.814 |
| ICL(PLUQ) | 0.749 | 0.132 | 0.407 |
| DinSQL | 0.726 | 0.000 | 0.071 |
| REACT | 0.308 | 0.524 | 0.503 |
| ICL(SeqSQL) | 0.040 | 0.000 | 0.040 |
EMR-AGENT在所有数据库上大幅领先。eICU和SICdb上基线方法几乎完全失败(F1<0.53),而EMR-AGENT保持>0.81。
代码映射(F1/Balanced Accuracy)
| 方法 | MIMIC-III F1 | eICU F1 | SICdb F1 |
|---|---|---|---|
| EMR-AGENT | 0.516 | 0.648 | 0.536 |
| ICL(PLUQ) | 0.022 | 0.125 | 0.119 |
| REACT | 0.214 | 0.067 | 0.218 |
代码映射更具挑战性,但EMR-AGENT仍大幅领先(提升0.3-0.5 F1)。
消融实验¶
CFSA组件消融
| 组件 | MIMIC-III F1 | SICdb F1 |
|---|---|---|
| 完整系统 | 0.940 | 0.814 |
| 去掉SQL观察 | 0.916 | 0.795 |
| 去掉错误反馈 | 0.688 | 0.617 |
| 去掉全部DB交互 | 0.677 | 0.570 |
| 去掉SchemaGuideline | 0.827 | 0.792 |
DB交互是最关键组件。去掉Documents+Modules后CFSA在eICU上F1降为0,CMA全面崩溃。
不同LLM骨干(SICdb)
| LLM | CFSA F1 | CMA F1 |
|---|---|---|
| Claude-3.5-Sonnet | 0.81 | 0.54 |
| Claude-3.7-Sonnet | 0.80 | 0.63 |
| Claude-3.5-haiku | 0.74 | 0.44 |
| Qwen2.5-72B | 0.22 | 0.31 |
| Llama-3.1-70B | 0.18 | 0.14 |
开源模型(Qwen/Llama)性能远低于Claude系列,说明Agent能力强烈依赖骨干LLM的推理质量。
关键发现¶
- 动态数据库交互(SQL观察+错误反馈)是性能的最大贡献者
- 外部知识(数据库手册+评估备忘录)对CMA尤为关键
- 在未见过的数据库(SICdb,晚于LLM训练数据截止日期)上仍有良好泛化
- 代码映射固有困难(同一特征多种编码),F1~0.5-0.65已是显著进步
亮点与洞察¶
- 范式创新:从手工编写规则到AI Agent动态交互的EMR预处理范式转变
- SQL作为探索工具:不同于Text-to-SQL的单次查询,Agent将SQL用于迭代观察、验证和决策
- Schema Guideline方法:结合多知识源的上下文感知schema理解,超越传统schema linking
- 配套基准PreCISE-EMR:首个标准化EMR预处理评估协议,与临床专家合作构建
- 实际价值巨大:医疗ML的数据预处理是真实瓶颈,自动化可极大提升效率
局限性 / 可改进方向¶
- 代码映射F1仍有提升空间(0.5-0.65),特别是同义临床概念的消歧
- 强烈依赖Claude系列LLM,开源模型效果差距大
- 仅评估ICU数据库(MIMIC-III/eICU/SICdb),未涉及门诊或专科EMR
- 56个特征限于生命体征和实验室结果,未覆盖用药、诊断代码、影像报告等
- 计算成本(多次LLM调用+SQL交互)未详细分析
- 需用户获取PhysioNet凭据才能复现,增加了准入门槛
相关工作与启发¶
- vs YAIB/BlendedICU:后者硬编码规则,新数据库需人工适配;EMR-AGENT自动适应
- vs ACES/Clairvoyance:后者依赖固定输入格式,EMR-AGENT直接与原始数据库交互
- vs Text-to-SQL(PLUQ/EHRSQL):后者假设用户熟悉schema、只做单次查询;EMR-AGENT处理多轮探索和schema不确定性
- vs EHRAgent:后者做孤立的图表查询,EMR-AGENT做结构化预处理流水线
- 启发:Agent驱动的数据获取可能成为医疗AI的新基础设施层
评分¶
| 维度 | 分数 |
|---|---|
| 创新性 | ★★★★★ |
| 理论深度 | ★★★☆☆ |
| 实验充分性 | ★★★★☆ |
| 实用价值 | ★★★★★ |
| 写作质量 | ★★★★☆ |