跳转至

Aligning AI Research with the Needs of Clinical Coding Workflows: Eight Recommendations Based on US Data Analysis and Critical Review

会议: ACL 2025
arXiv: 2412.18043
代码: 无
领域: 医学图像 / 临床编码
关键词: clinical coding, ICD coding, automated coding, evaluation methodology, MIMIC

一句话总结

这篇 position paper 通过对 MIMIC 数据集和现有自动化临床编码研究的深入分析,指出当前评估方法(如仅关注前50个高频编码、使用不恰当指标)与真实临床场景严重脱节,并提出八条具体建议来改进评估方法和研究方向。

研究背景与动机

  1. 领域现状:临床编码(clinical coding)是将临床笔记转化为 ICD 编码的过程,用于医院计费和疾病流行学研究。当前 AI 编码研究主要将其作为多标签分类问题来解决,使用的公开数据集以 MIMIC 为主(331,675 例入院记录)。
  2. 现有痛点:现有研究普遍存在评估与实际需求脱节的问题:(1) 仅评估 top-50 高频编码,但实际中有数千种编码;(2) 使用 AUC-ROC 作为主要指标但数据高度不平衡导致分数误导;(3) 忽略临床编码中编码顺序的重要性;(4) 缺乏与人类编码准确率直接对比的指标。
  3. 核心矛盾:学术界追求的自动化编码与临床实践中辅助编码的需求不匹配。SOTA 模型(PLM-ICD)的实例准确率不到 1.1%,而人类编码员约 54%-67.5%,差距巨大。
  4. 本文要解决什么? (1) 揭示现有评估策略的具体缺陷;(2) 提供改进建议使研究更贴近临床需求;(3) 提出超越全自动编码的新方法论。
  5. 切入角度:从临床编码工作流程出发,系统分析评估方法的不足,并提出辅助编码和编码审计等新研究方向。
  6. 核心idea一句话:与其追求看起来遥不可及的全自动编码,不如将 AI 整合到临床编码工作流程中作为辅助工具,同时修正现有评估方法使其更真实地反映系统效果。

方法详解

整体框架

这不是一篇方法论文,而是一篇 position paper。整体结构为:(1) 描述临床编码工作流程;(2) 基于 MIMIC 数据分析揭示评估缺陷;(3) 提出八条改进建议;(4) 提出新的工作流启发方法论。

关键分析

  1. Top-50 编码覆盖率分析:
  2. 做什么:量化前50个最常见编码对实际数据的覆盖程度
  3. 核心发现:top-50 编码仅覆盖 33.92% 的编码出现次数;0% 的住院记录完全被 top-50 覆盖;即使扩展到 top-800,仍有 ~80% 的住院记录未被完全覆盖
  4. 问题所在:不同代码集(top-50 vs full)下模型排名不一致,如 CNN 在 top-50 上超过 CAML 但在 full 上反而更差,说明 top-50 评估缺乏泛化性

  5. 阈值与指标分析:

  6. 做什么:分析全局阈值(0.5)和 AUC-ROC 指标在不平衡数据上的问题
  7. 核心发现:PLM-ICD 的 macro AUC-ROC > 95%(看似很好),但 MAP < 70%(实际精度很差)。这是因为不平衡数据中负类主导导致 AUC-ROC 虚高
  8. 建议:报告 AUC-PR(Average Precision)以及 AUC-ROC;考虑动态阈值而非全局固定 0.5

  9. 与人类编码准确率的对比:

  10. 做什么:计算 PLM-ICD 的 Jaccard Score(编码准确率)并与人类对比
  11. 核心数据:PLM-ICD 最佳三位数准确率 55.22%,而人类中位数 83.2%;实例准确率(EMR)< 1.1%,人类约 54%-67.5%
  12. 建议:必须报告 EMR 和 Jaccard Score 来展示 AI 与人类的真实差距

  13. 编码顺序的重要性:

  14. 做什么:指出现有研究忽略了编码顺序这一临床要求
  15. 核心论点:ICD-10-CM 官方指南要求病因编码排在表现编码前,麻醉编码紧跟手术编码。现有研究完全忽略序列信息

新方法论提案

作者提出三类新的研究方向,将 AI 整合到编码工作流程中:

  1. 顺序任务(Sequential Task):
  2. 将多标签分类转化为逐步单标签预测
  3. 每步预测一个编码后获取人类反馈,作为下一步输入
  4. 三种设计:分类器链、单多分类器迭代、seq2seq 解码+反馈
  5. 评估指标:Precision@k、达到全覆盖的步数、反馈收敛率

  6. 召回任务(Recall Task):

  7. 将问题转化为多选题,最大化相关选项、最小化总选项数
  8. 高置信度编码自动分配,低置信度呈现给编码员选择
  9. 优化 Recall@k 而非传统的 F1

  10. 结构任务(Structural Task):

  11. 利用 ICD 编码的层次结构,分两阶段:先预测父编码(前三位),再预测子编码
  12. 实验证明父编码预测更简单(micro F1: 29.1% vs 10.5%)
  13. 将困难的子编码预测委托给人类

  14. 异步审计(Code Auditing):

  15. 如果模型 Precision@1 为 95%,可在人工编码后作为离线审计员
  16. 标记高置信度缺失编码,提示编码员审查
  17. 不干扰正常编码工作流

实验关键数据

主实验:PLM-ICD 编码准确率

数据集 三位数准确率 四位数准确率 全编码准确率
MIMIC-III Clean 52.84 ±0.34 46.21 ±0.33 44.01 ±0.33
MIMIC-IV ICD-9 55.22 ±0.19 49.28 ±0.19 46.75 ±0.18
MIMIC-IV ICD-10 51.17 ±0.22 44.97 ±0.22 42.05 ±0.22

关键统计分析

分析维度 发现 说明
Top-50 覆盖率 33.92% 仅占总编码出现次数
完全覆盖率(top-50) 0% 无任何住院记录被完全覆盖
完全覆盖率(top-800) 20.48% 仍有80%住院记录未完全覆盖
SOTA 实例准确率 <1.1% vs 人类 54%-67.5%
PLM-ICD AUC-ROC >95% 看似优秀但具有误导性
PLM-ICD MAP <70% 实际精度远不如 AUC-ROC 所示

关键发现

  • 文档长度对模型性能影响不大,从 4000 到 2500 词截断后差异很小
  • MIMIC-IV 中仅约 1% 的住院记录包含一个唯一的 ICD-10-CM 三位数编码,超过一半包含至少6个
  • MIMIC-III 仅覆盖了 ICD-9-CM 可能的 17,800 个编码中的 50.16%
  • MIMIC-IV ICD-10 仅覆盖了 139,000 个编码中的 18.78%

亮点与洞察

  • 工作流视角:作者不局限于"如何提高分类精度"的技术视角,而是从临床编码的完整工作流出发分析问题,这种从实际需求倒推研究方向的思路值得学习
  • 指标失真的揭示:AUC-ROC 在不平衡场景下的误导性是一个经典问题,但在临床编码领域被首次系统论证,quantitatively 展示了 >95% AUC-ROC vs <70% MAP 的巨大落差
  • 从全自动化到人机协作的范式转变:提出的顺序任务、召回任务、结构任务三种新方法论,将编码问题从"替代人类"转向"辅助人类",更具实际可行性
  • 分层预测利用 ICD 码的自然层次:三位数父编码预测远易于全编码预测(F1: 29.1% vs 10.5%),这一观察可迁移到其他层次化标签体系的任务

局限性 / 可改进方向

  • 分析仅基于美国 MIMIC 数据集,不同国家/地区的编码系统和工作流存在差异,建议的适用范围有限
  • 论文未提供任何新方法的实验验证,所有新方法论仅停留在提案层面
  • 对 LLM 在临床编码中的应用讨论不足,尤其是 GPT-4 等模型在编码辅助中的潜力
  • 未讨论多语言临床编码的挑战,而很多国家使用的是 ICD 的本地化版本

相关工作与启发

  • vs PLM-ICD (Huang et al., 2022): PLM-ICD 是当前 SOTA 自动编码模型,使用预训练语言模型+代码特定注意力。本文以它为分析对象揭示了其实际临床局限
  • vs CAML (Mullenbach et al., 2018): 开创了 CNN+per-code attention 的方法,但在 top-50 和 full code 上排名不一致,支持了本文关于 top-50 评估不可靠的论点
  • vs Edin et al. (2023): 提供了系统的复现和基准测试,本文大量引用其发现来支撑分析

评分

  • 新颖性: ⭐⭐⭐⭐ 虽然不是技术创新,但从工作流视角系统分析评估缺陷的角度独特且有价值
  • 实验充分度: ⭐⭐⭐⭐ 数据分析全面深入,但新方法论缺乏实验验证
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰、论证有力、建议具体可行
  • 价值: ⭐⭐⭐⭐ 对临床编码领域的研究方向有重要指导意义,八条建议非常实用