Aligning AI Research with the Needs of Clinical Coding Workflows: Eight Recommendations Based on US Data Analysis and Critical Review¶

会议: ACL 2025
arXiv: 2412.18043
代码: 无
领域: 医学图像 / 临床编码
关键词: clinical coding, ICD coding, automated coding, evaluation methodology, MIMIC

一句话总结¶

这篇 position paper 通过对 MIMIC 数据集和现有自动化临床编码研究的深入分析，指出当前评估方法（如仅关注前50个高频编码、使用不恰当指标）与真实临床场景严重脱节，并提出八条具体建议来改进评估方法和研究方向。

领域现状：临床编码（clinical coding）是将临床笔记转化为 ICD 编码的过程，用于医院计费和疾病流行学研究。当前 AI 编码研究主要将其作为多标签分类问题来解决，使用的公开数据集以 MIMIC 为主（331,675 例入院记录）。
现有痛点：现有研究普遍存在评估与实际需求脱节的问题：(1) 仅评估 top-50 高频编码，但实际中有数千种编码；(2) 使用 AUC-ROC 作为主要指标但数据高度不平衡导致分数误导；(3) 忽略临床编码中编码顺序的重要性；(4) 缺乏与人类编码准确率直接对比的指标。
核心矛盾：学术界追求的自动化编码与临床实践中辅助编码的需求不匹配。SOTA 模型（PLM-ICD）的实例准确率不到 1.1%，而人类编码员约 54%-67.5%，差距巨大。
本文要解决什么？ (1) 揭示现有评估策略的具体缺陷；(2) 提供改进建议使研究更贴近临床需求；(3) 提出超越全自动编码的新方法论。
切入角度：从临床编码工作流程出发，系统分析评估方法的不足，并提出辅助编码和编码审计等新研究方向。
核心idea一句话：与其追求看起来遥不可及的全自动编码，不如将 AI 整合到临床编码工作流程中作为辅助工具，同时修正现有评估方法使其更真实地反映系统效果。

这不是一篇方法论文，而是一篇 position paper。整体结构为：(1) 描述临床编码工作流程；(2) 基于 MIMIC 数据分析揭示评估缺陷；(3) 提出八条改进建议；(4) 提出新的工作流启发方法论。

Top-50 编码覆盖率分析:
做什么：量化前50个最常见编码对实际数据的覆盖程度
核心发现：top-50 编码仅覆盖 33.92% 的编码出现次数；0% 的住院记录完全被 top-50 覆盖；即使扩展到 top-800，仍有 ~80% 的住院记录未被完全覆盖
问题所在：不同代码集（top-50 vs full）下模型排名不一致，如 CNN 在 top-50 上超过 CAML 但在 full 上反而更差，说明 top-50 评估缺乏泛化性
阈值与指标分析:
做什么：分析全局阈值（0.5）和 AUC-ROC 指标在不平衡数据上的问题
核心发现：PLM-ICD 的 macro AUC-ROC > 95%（看似很好），但 MAP < 70%（实际精度很差）。这是因为不平衡数据中负类主导导致 AUC-ROC 虚高
建议：报告 AUC-PR（Average Precision）以及 AUC-ROC；考虑动态阈值而非全局固定 0.5
与人类编码准确率的对比:
做什么：计算 PLM-ICD 的 Jaccard Score（编码准确率）并与人类对比
核心数据：PLM-ICD 最佳三位数准确率 55.22%，而人类中位数 83.2%；实例准确率（EMR）< 1.1%，人类约 54%-67.5%
建议：必须报告 EMR 和 Jaccard Score 来展示 AI 与人类的真实差距
编码顺序的重要性:
做什么：指出现有研究忽略了编码顺序这一临床要求
核心论点：ICD-10-CM 官方指南要求病因编码排在表现编码前，麻醉编码紧跟手术编码。现有研究完全忽略序列信息

作者提出三类新的研究方向，将 AI 整合到编码工作流程中：

数据集	三位数准确率	四位数准确率	全编码准确率
MIMIC-III Clean	52.84 ±0.34	46.21 ±0.33	44.01 ±0.33
MIMIC-IV ICD-9	55.22 ±0.19	49.28 ±0.19	46.75 ±0.18
MIMIC-IV ICD-10	51.17 ±0.22	44.97 ±0.22	42.05 ±0.22

工作流视角：作者不局限于"如何提高分类精度"的技术视角，而是从临床编码的完整工作流出发分析问题，这种从实际需求倒推研究方向的思路值得学习
指标失真的揭示：AUC-ROC 在不平衡场景下的误导性是一个经典问题，但在临床编码领域被首次系统论证，quantitatively 展示了 >95% AUC-ROC vs <70% MAP 的巨大落差
从全自动化到人机协作的范式转变：提出的顺序任务、召回任务、结构任务三种新方法论，将编码问题从"替代人类"转向"辅助人类"，更具实际可行性
分层预测利用 ICD 码的自然层次：三位数父编码预测远易于全编码预测（F1: 29.1% vs 10.5%），这一观察可迁移到其他层次化标签体系的任务