Aligning AI Research with the Needs of Clinical Coding Workflows: Eight Recommendations Based on US Data Analysis and Critical Review¶
会议: ACL 2025
arXiv: 2412.18043
代码: 无
领域: 医学图像 / 临床编码
关键词: clinical coding, ICD coding, automated coding, evaluation methodology, MIMIC
一句话总结¶
这篇 position paper 通过对 MIMIC 数据集和现有自动化临床编码研究的深入分析,指出当前评估方法(如仅关注前50个高频编码、使用不恰当指标)与真实临床场景严重脱节,并提出八条具体建议来改进评估方法和研究方向。
研究背景与动机¶
- 领域现状:临床编码(clinical coding)是将临床笔记转化为 ICD 编码的过程,用于医院计费和疾病流行学研究。当前 AI 编码研究主要将其作为多标签分类问题来解决,使用的公开数据集以 MIMIC 为主(331,675 例入院记录)。
- 现有痛点:现有研究普遍存在评估与实际需求脱节的问题:(1) 仅评估 top-50 高频编码,但实际中有数千种编码;(2) 使用 AUC-ROC 作为主要指标但数据高度不平衡导致分数误导;(3) 忽略临床编码中编码顺序的重要性;(4) 缺乏与人类编码准确率直接对比的指标。
- 核心矛盾:学术界追求的自动化编码与临床实践中辅助编码的需求不匹配。SOTA 模型(PLM-ICD)的实例准确率不到 1.1%,而人类编码员约 54%-67.5%,差距巨大。
- 本文要解决什么? (1) 揭示现有评估策略的具体缺陷;(2) 提供改进建议使研究更贴近临床需求;(3) 提出超越全自动编码的新方法论。
- 切入角度:从临床编码工作流程出发,系统分析评估方法的不足,并提出辅助编码和编码审计等新研究方向。
- 核心idea一句话:与其追求看起来遥不可及的全自动编码,不如将 AI 整合到临床编码工作流程中作为辅助工具,同时修正现有评估方法使其更真实地反映系统效果。
方法详解¶
整体框架¶
这不是一篇方法论文,而是一篇 position paper。整体结构为:(1) 描述临床编码工作流程;(2) 基于 MIMIC 数据分析揭示评估缺陷;(3) 提出八条改进建议;(4) 提出新的工作流启发方法论。
关键分析¶
- Top-50 编码覆盖率分析:
- 做什么:量化前50个最常见编码对实际数据的覆盖程度
- 核心发现:top-50 编码仅覆盖 33.92% 的编码出现次数;0% 的住院记录完全被 top-50 覆盖;即使扩展到 top-800,仍有 ~80% 的住院记录未被完全覆盖
-
问题所在:不同代码集(top-50 vs full)下模型排名不一致,如 CNN 在 top-50 上超过 CAML 但在 full 上反而更差,说明 top-50 评估缺乏泛化性
-
阈值与指标分析:
- 做什么:分析全局阈值(0.5)和 AUC-ROC 指标在不平衡数据上的问题
- 核心发现:PLM-ICD 的 macro AUC-ROC > 95%(看似很好),但 MAP < 70%(实际精度很差)。这是因为不平衡数据中负类主导导致 AUC-ROC 虚高
-
建议:报告 AUC-PR(Average Precision)以及 AUC-ROC;考虑动态阈值而非全局固定 0.5
-
与人类编码准确率的对比:
- 做什么:计算 PLM-ICD 的 Jaccard Score(编码准确率)并与人类对比
- 核心数据:PLM-ICD 最佳三位数准确率 55.22%,而人类中位数 83.2%;实例准确率(EMR)< 1.1%,人类约 54%-67.5%
-
建议:必须报告 EMR 和 Jaccard Score 来展示 AI 与人类的真实差距
-
编码顺序的重要性:
- 做什么:指出现有研究忽略了编码顺序这一临床要求
- 核心论点:ICD-10-CM 官方指南要求病因编码排在表现编码前,麻醉编码紧跟手术编码。现有研究完全忽略序列信息
新方法论提案¶
作者提出三类新的研究方向,将 AI 整合到编码工作流程中:
- 顺序任务(Sequential Task):
- 将多标签分类转化为逐步单标签预测
- 每步预测一个编码后获取人类反馈,作为下一步输入
- 三种设计:分类器链、单多分类器迭代、seq2seq 解码+反馈
-
评估指标:Precision@k、达到全覆盖的步数、反馈收敛率
-
召回任务(Recall Task):
- 将问题转化为多选题,最大化相关选项、最小化总选项数
- 高置信度编码自动分配,低置信度呈现给编码员选择
-
优化 Recall@k 而非传统的 F1
-
结构任务(Structural Task):
- 利用 ICD 编码的层次结构,分两阶段:先预测父编码(前三位),再预测子编码
- 实验证明父编码预测更简单(micro F1: 29.1% vs 10.5%)
-
将困难的子编码预测委托给人类
-
异步审计(Code Auditing):
- 如果模型 Precision@1 为 95%,可在人工编码后作为离线审计员
- 标记高置信度缺失编码,提示编码员审查
- 不干扰正常编码工作流
实验关键数据¶
主实验:PLM-ICD 编码准确率¶
| 数据集 | 三位数准确率 | 四位数准确率 | 全编码准确率 |
|---|---|---|---|
| MIMIC-III Clean | 52.84 ±0.34 | 46.21 ±0.33 | 44.01 ±0.33 |
| MIMIC-IV ICD-9 | 55.22 ±0.19 | 49.28 ±0.19 | 46.75 ±0.18 |
| MIMIC-IV ICD-10 | 51.17 ±0.22 | 44.97 ±0.22 | 42.05 ±0.22 |
关键统计分析¶
| 分析维度 | 发现 | 说明 |
|---|---|---|
| Top-50 覆盖率 | 33.92% | 仅占总编码出现次数 |
| 完全覆盖率(top-50) | 0% | 无任何住院记录被完全覆盖 |
| 完全覆盖率(top-800) | 20.48% | 仍有80%住院记录未完全覆盖 |
| SOTA 实例准确率 | <1.1% | vs 人类 54%-67.5% |
| PLM-ICD AUC-ROC | >95% | 看似优秀但具有误导性 |
| PLM-ICD MAP | <70% | 实际精度远不如 AUC-ROC 所示 |
关键发现¶
- 文档长度对模型性能影响不大,从 4000 到 2500 词截断后差异很小
- MIMIC-IV 中仅约 1% 的住院记录包含一个唯一的 ICD-10-CM 三位数编码,超过一半包含至少6个
- MIMIC-III 仅覆盖了 ICD-9-CM 可能的 17,800 个编码中的 50.16%
- MIMIC-IV ICD-10 仅覆盖了 139,000 个编码中的 18.78%
亮点与洞察¶
- 工作流视角:作者不局限于"如何提高分类精度"的技术视角,而是从临床编码的完整工作流出发分析问题,这种从实际需求倒推研究方向的思路值得学习
- 指标失真的揭示:AUC-ROC 在不平衡场景下的误导性是一个经典问题,但在临床编码领域被首次系统论证,quantitatively 展示了 >95% AUC-ROC vs <70% MAP 的巨大落差
- 从全自动化到人机协作的范式转变:提出的顺序任务、召回任务、结构任务三种新方法论,将编码问题从"替代人类"转向"辅助人类",更具实际可行性
- 分层预测利用 ICD 码的自然层次:三位数父编码预测远易于全编码预测(F1: 29.1% vs 10.5%),这一观察可迁移到其他层次化标签体系的任务
局限性 / 可改进方向¶
- 分析仅基于美国 MIMIC 数据集,不同国家/地区的编码系统和工作流存在差异,建议的适用范围有限
- 论文未提供任何新方法的实验验证,所有新方法论仅停留在提案层面
- 对 LLM 在临床编码中的应用讨论不足,尤其是 GPT-4 等模型在编码辅助中的潜力
- 未讨论多语言临床编码的挑战,而很多国家使用的是 ICD 的本地化版本
相关工作与启发¶
- vs PLM-ICD (Huang et al., 2022): PLM-ICD 是当前 SOTA 自动编码模型,使用预训练语言模型+代码特定注意力。本文以它为分析对象揭示了其实际临床局限
- vs CAML (Mullenbach et al., 2018): 开创了 CNN+per-code attention 的方法,但在 top-50 和 full code 上排名不一致,支持了本文关于 top-50 评估不可靠的论点
- vs Edin et al. (2023): 提供了系统的复现和基准测试,本文大量引用其发现来支撑分析
评分¶
- 新颖性: ⭐⭐⭐⭐ 虽然不是技术创新,但从工作流视角系统分析评估缺陷的角度独特且有价值
- 实验充分度: ⭐⭐⭐⭐ 数据分析全面深入,但新方法论缺乏实验验证
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、论证有力、建议具体可行
- 价值: ⭐⭐⭐⭐ 对临床编码领域的研究方向有重要指导意义,八条建议非常实用