跳转至

📚 AI Paper Notes

GKI-ICD: A General Knowledge Injection Framework for ICD Coding

GKI-ICD: A General Knowledge Injection Framework for ICD Coding¶

会议: ACL 2025
arXiv: 2505.18708
代码: GitHub
领域: 医学NLP / 多标签分类
关键词: ICD编码, 知识注入, 多任务学习, 引导合成, 长尾分布, MIMIC-III

一句话总结¶

提出 GKI-ICD，首个无需额外专用网络模块即可同时注入三种 ICD 编码知识（描述、同义词、层级结构）的通用框架——通过合成知识引导文本（Guideline Synthesis）+ 多任务学习实现知识注入，在 MIMIC-III 和 MIMIC-III-50 上大多数指标达到 SOTA。

背景与动机¶

ICD 编码——将临床文本映射到 ICD 码——面临两大挑战：(1) 数万个编码的极端长尾分布，大多数编码训练样本不足；(2) 长文档中编码证据的精确定位困难（缺乏证据级标注）。

现有知识注入方法的问题： - 方法碎片化：不同知识类型（描述/同义词/层级）需要不同专用模块（GNN/多同义词注意力等），相互不兼容 - 扩展性差：专用模块复杂，难以迁移到新模型架构 - 知识利用不全：每种方法通常只用 1-2 种知识，未综合利用

核心问题¶

如何设计一个统一框架，无需专用网络模块即可同时注入描述、同义词和层级三种 ICD 知识，并适用于任意编码模型？

方法详解¶

整体框架¶

两阶段：(1) 引导合成——基于三种知识为每个训练样本合成知识引导文本；(2) 多任务学习——模型同时在原始文本和合成引导上训练，并做表示对齐。

关键设计¶

引导合成（Guideline Synthesis）：
从正标签集提取 ICD 描述（Description Parsing）
用 UMLS 查询每个编码的同义词，随机采样替换描述（Synonym Replacement）——增加训练多样性
检索每个编码的层级路径描述（Hierarchy Retrieve）
打乱顺序 + 拼接为长文本引导 x̂
多任务训练：
原始预测任务：\(L_{raw} = L_{BCE}(f(x), y)\)
引导预测任务：\(L_{guide} = L_{BCE}(f(\hat{x}), y)\)——模型也需从引导文本正确预测编码
表示对齐任务：鼓励模型从原始文本和引导文本提取的信息对齐
总损失：\(L = L_{raw} + \alpha L_{guide} + \beta L_{align}\)
关键优势——仅训练时注入，推理时无额外开销：引导文本只在训练使用，推理时模型仅处理原始临床文本。

训练策略¶

基于 PLM-ICD（预训练语言模型 + 交叉注意力标签注意力）作为骨干，标准二元交叉熵损失。

实验关键数据¶

MIMIC-III 完整编码集¶

方法	Macro F1↑	Micro F1↑	Macro AUC↑
PLM-ICD (baseline)	基线	基线	基线
MSMN (同义词)	中等	中等	中等
DKEC (层级GNN)	中等偏高	中等偏高	中等偏高
GKI-ICD	SOTA	SOTA	SOTA

大多数指标 SOTA
消融验证三种知识各有贡献且互补

消融实验¶

知识配置	Macro F1
无知识	基线
+ 描述	提升
+ 描述 + 同义词	进一步提升
+ 描述 + 同义词 + 层级	最优

三种知识体现差异性和互补性——同时使用效果最好

亮点¶

首次统一三种 ICD 知识：描述+同义词+层级，无需专用模块
引导合成思路优雅：将知识转化为文本，让语言模型自行从中学习，而非设计复杂网络理解结构化知识
推理零开销：知识仅在训练时通过引导文本和多任务学习注入，推理时不增加任何计算
模型无关：框架可接入任何 ICD 编码骨干网络

局限性 / 可改进方向¶

训练时需要标签信息合成引导：推理时无法使用引导——训练-推理不一致
仅在 MIMIC-III/III-50 上验证：未测试 MIMIC-IV 或其他医疗编码数据集
LLM 在 ICD 编码上表现差：论文引用 Boyle et al. 2023 证明 LLM 不如微调小模型，但未讨论融合可能
层级知识的文本化可能丢失结构信息：平铺描述可能不如 GNN 保留层级关系

与相关工作的对比¶

vs MSMN（同义词注意力）：MSMN 用专用多同义词注意力模块；GKI-ICD 通过文本合成统一注入
vs DKEC（层级GNN）：DKEC 用异构图网络额外编码层级；GKI-ICD 将层级描述平铺为文本
vs KEPTLongformer（描述prompt）：KEPT 将描述作为输入 prompt 增大推理开销；GKI-ICD 仅训练时使用

启发与关联¶

"将结构化知识转化为文本让 LM 自行学习"的思路值得推广——比设计专用网络更简洁且模型无关
多任务学习（原始预测 + 引导预测 + 表示对齐）是将辅助信息注入模型的通用范式
训练时用丰富信息、推理时保持轻量——这种不对称设计对生产部署友好

评分¶

新颖性: ⭐⭐⭐⭐ 首次统一三种知识注入且无需专用模块，引导合成思路新颖
实验充分度: ⭐⭐⭐⭐ MIMIC-III 双基准 + 详细消融
写作质量: ⭐⭐⭐⭐ 问题分析清楚，方法描述清晰
价值: ⭐⭐⭐⭐ 对医学NLP中的知识注入有实际指导意义