EMR-AGENT: Automating Cohort and Feature Extraction from EMR Databases¶

会议: ICLR 2026
arXiv: 2510.00549
代码: 有
领域: 医学图像
关键词: 电子病历, LLM Agent, 队列选择, 特征提取, 代码映射

一句话总结¶

提出EMR-AGENT，首个基于LLM Agent的电子病历（EMR）自动化预处理框架，通过动态SQL交互替代手工规则编写，实现跨数据库的队列选择、特征提取和代码映射，在MIMIC-III/eICU/SICdb上表现优异并具强泛化能力。

研究背景与动机¶

临床预测模型依赖从EMR中提取的结构化数据，但这一过程仍被硬编码、数据库特定的流水线主导，涉及队列定义、特征选择和代码映射三大步骤。这带来两大核心挑战：

挑战1：跨机构语义和结构异质性。不同医院EMR系统差异极大。例如"心率"在MIMIC-III中是itemid=211，在SICdb中是HeartRateECG，在eICU中是列名heartrate。这导致模型在跨数据库部署时的可比性和泛化性严重受限。

挑战2：同一数据库内的不一致性。同一临床概念可能有多种测量方式（如心率可通过传感器、听诊、触诊获得），导致多种代码映射。队列选择标准的模糊性（如"首次ICU入院"的不同解读）也造成不同研究选出不同患者群体。

现有解决方案（YAIB、ACES、BlendedICU等）要么依赖硬编码规则缺乏灵活性，要么依赖预定义输入格式限制泛化性。核心问题：能否用AI agent替代人工规则编写，实现自动化EMR预处理？

方法详解¶

整体框架¶

EMR-AGENT由两个LLM Agent组成，共享一个Schema链接与指南生成前端模块：

CFSA（队列与特征选择Agent）：自动化患者队列选择和临床变量提取
CMA（代码映射Agent）：标准化不同EMR系统的临床特征代码

核心理念：将SQL视为探索和决策工具，而非仅作为最终查询输出。Agent通过迭代观察查询结果、推理schema和文档来完成预处理任务。

关键设计¶

1. Schema链接与指南生成

与传统仅依赖schema信息的链接不同，该模块利用多种知识源（数据库手册、评估备忘录）增强schema理解：

为CFSA：明确每个schema组件的角色，标识缺失信息，规划SQL观测
为CMA：定义每个表和列的角色以实现准确的候选列表

2. CFSA的三阶段交互循环

SQL充分性评估：判断当前schema和指南是否足以生成目标SQL。不足则生成观察SQL获取额外数据
数据充分性检查：评估观察SQL返回的数据是否改善了schema理解
Schema更新：将新获取的数据整合到schema和指南中

然后进入SQL生成和错误反馈循环： - 语法错误 → 直接重新生成 - Schema不匹配（语法正确但语义错误）→ 回到Schema链接步骤 - 正确结果 → 完成提取

3. CMA的候选匹配

特征定位：先在schema中直接搜索目标特征列名
候选列表：若直接搜索失败，从schema确定可能包含特征的表和列，执行DISTINCT查询获取所有候选组合
目标与候选匹配：批量比较用户请求特征与候选，计算相似度分数（0-100），双阈值策略（先80后90）

损失函数 / 训练策略¶

EMR-AGENT是基于推理的Agent框架，不涉及训练，而是依赖：

问题分解策略：将复杂EMR预处理任务分解为可管理的子问题
温度调度：CFSA允许最多10次观察，前5次温度0，之后每次+0.1增加探索性
错误反馈最多5次重试
LLM骨干：Claude-3.5-Sonnet作为主力模型

实验关键数据¶

主实验¶

队列与特征选择（F1/Accuracy）

方法	MIMIC-III F1	eICU F1	SICdb F1
EMR-AGENT	0.940	0.929	0.814
ICL(PLUQ)	0.749	0.132	0.407
DinSQL	0.726	0.000	0.071
REACT	0.308	0.524	0.503
ICL(SeqSQL)	0.040	0.000	0.040

EMR-AGENT在所有数据库上大幅领先。eICU和SICdb上基线方法几乎完全失败（F1<0.53），而EMR-AGENT保持>0.81。

代码映射（F1/Balanced Accuracy）

方法	MIMIC-III F1	eICU F1	SICdb F1
EMR-AGENT	0.516	0.648	0.536
ICL(PLUQ)	0.022	0.125	0.119
REACT	0.214	0.067	0.218

代码映射更具挑战性，但EMR-AGENT仍大幅领先（提升0.3-0.5 F1）。

消融实验¶

CFSA组件消融

组件	MIMIC-III F1	SICdb F1
完整系统	0.940	0.814
去掉SQL观察	0.916	0.795
去掉错误反馈	0.688	0.617
去掉全部DB交互	0.677	0.570
去掉SchemaGuideline	0.827	0.792

DB交互是最关键组件。去掉Documents+Modules后CFSA在eICU上F1降为0，CMA全面崩溃。

不同LLM骨干（SICdb）

LLM	CFSA F1	CMA F1
Claude-3.5-Sonnet	0.81	0.54
Claude-3.7-Sonnet	0.80	0.63
Claude-3.5-haiku	0.74	0.44
Qwen2.5-72B	0.22	0.31
Llama-3.1-70B	0.18	0.14

开源模型（Qwen/Llama）性能远低于Claude系列，说明Agent能力强烈依赖骨干LLM的推理质量。

关键发现¶

动态数据库交互（SQL观察+错误反馈）是性能的最大贡献者
外部知识（数据库手册+评估备忘录）对CMA尤为关键
在未见过的数据库（SICdb，晚于LLM训练数据截止日期）上仍有良好泛化
代码映射固有困难（同一特征多种编码），F1~0.5-0.65已是显著进步

亮点与洞察¶

范式创新：从手工编写规则到AI Agent动态交互的EMR预处理范式转变
SQL作为探索工具：不同于Text-to-SQL的单次查询，Agent将SQL用于迭代观察、验证和决策
Schema Guideline方法：结合多知识源的上下文感知schema理解，超越传统schema linking
配套基准PreCISE-EMR：首个标准化EMR预处理评估协议，与临床专家合作构建
实际价值巨大：医疗ML的数据预处理是真实瓶颈，自动化可极大提升效率

局限性 / 可改进方向¶

代码映射F1仍有提升空间（0.5-0.65），特别是同义临床概念的消歧
强烈依赖Claude系列LLM，开源模型效果差距大
仅评估ICU数据库（MIMIC-III/eICU/SICdb），未涉及门诊或专科EMR
56个特征限于生命体征和实验室结果，未覆盖用药、诊断代码、影像报告等
计算成本（多次LLM调用+SQL交互）未详细分析
需用户获取PhysioNet凭据才能复现，增加了准入门槛

评分¶

维度	分数
创新性	★★★★★
理论深度	★★★☆☆
实验充分性	★★★★☆
实用价值	★★★★★
写作质量	★★★★☆