跳转至

GKI-ICD: A General Knowledge Injection Framework for ICD Coding

会议: ACL 2025
arXiv: 2505.18708
代码: GitHub
领域: 医学NLP / 多标签分类
关键词: ICD编码, 知识注入, 多任务学习, 引导合成, 长尾分布, MIMIC-III

一句话总结

提出 GKI-ICD,首个无需额外专用网络模块即可同时注入三种 ICD 编码知识(描述、同义词、层级结构)的通用框架——通过合成知识引导文本(Guideline Synthesis)+ 多任务学习实现知识注入,在 MIMIC-III 和 MIMIC-III-50 上大多数指标达到 SOTA。

背景与动机

ICD 编码——将临床文本映射到 ICD 码——面临两大挑战:(1) 数万个编码的极端长尾分布,大多数编码训练样本不足;(2) 长文档中编码证据的精确定位困难(缺乏证据级标注)。

现有知识注入方法的问题: - 方法碎片化:不同知识类型(描述/同义词/层级)需要不同专用模块(GNN/多同义词注意力等),相互不兼容 - 扩展性差:专用模块复杂,难以迁移到新模型架构 - 知识利用不全:每种方法通常只用 1-2 种知识,未综合利用

核心问题

如何设计一个统一框架,无需专用网络模块即可同时注入描述、同义词和层级三种 ICD 知识,并适用于任意编码模型?

方法详解

整体框架

两阶段:(1) 引导合成——基于三种知识为每个训练样本合成知识引导文本;(2) 多任务学习——模型同时在原始文本和合成引导上训练,并做表示对齐。

关键设计

  1. 引导合成(Guideline Synthesis)
  2. 从正标签集提取 ICD 描述(Description Parsing)
  3. 用 UMLS 查询每个编码的同义词,随机采样替换描述(Synonym Replacement)——增加训练多样性
  4. 检索每个编码的层级路径描述(Hierarchy Retrieve)
  5. 打乱顺序 + 拼接为长文本引导 x̂

  6. 多任务训练

  7. 原始预测任务\(L_{raw} = L_{BCE}(f(x), y)\)
  8. 引导预测任务\(L_{guide} = L_{BCE}(f(\hat{x}), y)\)——模型也需从引导文本正确预测编码
  9. 表示对齐任务:鼓励模型从原始文本和引导文本提取的信息对齐
  10. 总损失:\(L = L_{raw} + \alpha L_{guide} + \beta L_{align}\)

  11. 关键优势——仅训练时注入,推理时无额外开销:引导文本只在训练使用,推理时模型仅处理原始临床文本。

训练策略

基于 PLM-ICD(预训练语言模型 + 交叉注意力标签注意力)作为骨干,标准二元交叉熵损失。

实验关键数据

MIMIC-III 完整编码集

方法 Macro F1↑ Micro F1↑ Macro AUC↑
PLM-ICD (baseline) 基线 基线 基线
MSMN (同义词) 中等 中等 中等
DKEC (层级GNN) 中等偏高 中等偏高 中等偏高
GKI-ICD SOTA SOTA SOTA
  • 大多数指标 SOTA
  • 消融验证三种知识各有贡献且互补

消融实验

知识配置 Macro F1
无知识 基线
+ 描述 提升
+ 描述 + 同义词 进一步提升
+ 描述 + 同义词 + 层级 最优
  • 三种知识体现差异性和互补性——同时使用效果最好

亮点

  • 首次统一三种 ICD 知识:描述+同义词+层级,无需专用模块
  • 引导合成思路优雅:将知识转化为文本,让语言模型自行从中学习,而非设计复杂网络理解结构化知识
  • 推理零开销:知识仅在训练时通过引导文本和多任务学习注入,推理时不增加任何计算
  • 模型无关:框架可接入任何 ICD 编码骨干网络

局限性 / 可改进方向

  • 训练时需要标签信息合成引导:推理时无法使用引导——训练-推理不一致
  • 仅在 MIMIC-III/III-50 上验证:未测试 MIMIC-IV 或其他医疗编码数据集
  • LLM 在 ICD 编码上表现差:论文引用 Boyle et al. 2023 证明 LLM 不如微调小模型,但未讨论融合可能
  • 层级知识的文本化可能丢失结构信息:平铺描述可能不如 GNN 保留层级关系

与相关工作的对比

  • vs MSMN(同义词注意力):MSMN 用专用多同义词注意力模块;GKI-ICD 通过文本合成统一注入
  • vs DKEC(层级GNN):DKEC 用异构图网络额外编码层级;GKI-ICD 将层级描述平铺为文本
  • vs KEPTLongformer(描述prompt):KEPT 将描述作为输入 prompt 增大推理开销;GKI-ICD 仅训练时使用

启发与关联

  • "将结构化知识转化为文本让 LM 自行学习"的思路值得推广——比设计专用网络更简洁且模型无关
  • 多任务学习(原始预测 + 引导预测 + 表示对齐)是将辅助信息注入模型的通用范式
  • 训练时用丰富信息、推理时保持轻量——这种不对称设计对生产部署友好

评分

  • 新颖性: ⭐⭐⭐⭐ 首次统一三种知识注入且无需专用模块,引导合成思路新颖
  • 实验充分度: ⭐⭐⭐⭐ MIMIC-III 双基准 + 详细消融
  • 写作质量: ⭐⭐⭐⭐ 问题分析清楚,方法描述清晰
  • 价值: ⭐⭐⭐⭐ 对医学NLP中的知识注入有实际指导意义