The Anatomy of Evidence: An Investigation Into Explainable ICD Coding¶

会议: ACL 2025
arXiv: 2507.01802
代码: 有 (https://github.com/lamarr-xai-group/anatomy-of-evidence)
领域: NLP / 医疗信息学
关键词: ICD编码, 可解释性, 证据抽取, MDACE数据集, 特征归因

一句话总结¶

本文对 MDACE 数据集和当前可解释 ICD 编码系统进行了深入的应用导向分析，揭示了人工标注证据与代码描述的重叠规律、证据在文档中的分布特征，并提出了新的匹配度量来评估模型解释的实用性。

研究背景与动机¶

自动医疗编码是缓解文档和计费流程的关键技术。ICD（国际疾病分类）编码是医院场景中最重要的编码系统，直接决定报销水平。随着深度学习的应用，自动编码系统已达到实用水平，但这些参数量达数十亿的模型缺乏透明性——降低了编码人员的接受度，并在监管评估中构成障碍。

可解释性研究面临的核心挑战：

数据稀缺：医学领域的词级标注成本极高，需要领域专家

评估受限：现有工作大多限于短文本和二元分类的社交媒体/产品评论

缺乏应用视角：先前研究以技术为中心，缺乏对数据理解和临床采用的深入分析

Cheng et al. (2023) 发布的 MDACE 数据集首次提供了临床记录中 ICD 代码的文本证据标注，为可解释 ICD 编码研究开辟了新方向。但该数据集的使用指南和现有方法的实用性评估仍然欠缺。

方法详解¶

整体框架¶

本文围绕数据分析和模型解释评估两条线展开：

数据分析（RQ1-RQ3）： - RQ1：证据在文档中的位置分布是怎样的？ - RQ2：证据与 ICD 代码描述的重叠程度如何？ - RQ3：充分标注（Inpatient）是否是完全标注（Profee）的子集？

模型解释评估（RQ4-RQ6）： - RQ4：解释长度与分类性能的关系如何？ - RQ5：模型解释与人工标注的匹配程度如何？ - RQ6：不同模型方法之间的证据一致性如何？

关键设计¶

证据位置分析（RQ1）
- 分析出院摘要和医生笔记中证据的相对位置分布
- 结果：Inpatient 证据主要出现在文档开头和结尾；Profee 在出院摘要中分布更均匀
- 重要发现：充分证据并非更多出现在文档开头，推翻了"从上到下扫描"的直觉假设
代码描述重叠分析（RQ2）
- 对证据和代码描述进行词形还原，去除停用词和标点
- 计算每个代码的所有证据-描述对的交集/描述词集比率
- 结果：三类分布——几乎无重叠、部分重叠、强重叠
- 实例：R06.83 "snoring" 和 I31.3 "pericardial effusion" 有极高重叠
- 启发：高重叠代码可用规则系统高效处理，释放神经模型容量给困难代码
新匹配度量（RQ5 核心贡献）
- Empty：因归因分数低于阈值，未生成任何证据
- Exact match：模型证据与标注证据完全一致
- Proximate match：所有标注序列至少有一个 token 匹配，未匹配 token 在 k=10 的上下文窗口内
- Partial match：至少一个标注序列无匹配或有 token 超出上下文窗口
- No match：token ID 完全无交集
- 动机：传统 F1/IOU 不够直观；实际场景中"引导编码人员关注正确上下文窗口"即可有效
模型实验设置
- 50 个模型（5 种训练策略 × 10 seeds）：有监督、无监督、梯度正则化、投影梯度下降、token 掩码
- 解释方法：AttInGrad（Attention × Input×Grad，L2 范数）
- 选择最佳监督和最佳无监督模型进行深入分析

实验关键数据¶

数据集分析结果¶

分析项	结论
证据平均长度	Inpatient 2.18 tokens, Profee 1.96 tokens
平均标签数/文档	Inpatient 11.3, Profee 31.4
Inpatient/Profee 共同子集	470 个唯一 note ID 中仅 118 个共同
共同代码中的子集比例	331 个相同代码中仅 55 个严格子集

模型解释评估（Figure 6 摘要）¶

度量	监督模型	无监督模型(IGR)
Exact match	~49	~49
Proximate match	较高	更高
Partial match	较高	较低
No match	较少	较多
Empty	极少	较少

关键发现¶

模型解释与人工标注的重叠度很高：最佳监督模型约 80% 的测试用例至少识别出一个正确 token
"No match" 中约 46-53% 实际是语义匹配：如 'obesity' vs 'obese'，说明纯 token ID 匹配低估了模型表现
解释长度与分类性能正相关：当模型提取的证据词数更多时，ICD 代码的召回率更高
监督和无监督模型 74% 的用例具有相同匹配类型，证据一致性较好
低概率预测几乎不产生证据（empty），实际推理中可忽略
Inpatient 和 Profee 的对齐远小于预期：不同编码规则导致代码集差异显著

证据多样性分析¶

ICD 代码	出现次/唯一数	证据示例
I10 (高血压)	133/8	'hypertension', 'HTN', 'hypertensive'
Z87.891 (吸烟史)	20/19	'smoking history', 'former smoker', 'the distant past'

→ 部分代码证据高度固定（I10），另一些则极为多样（Z87.891），后者可能更难学习。

亮点与洞察¶

应用导向的深度分析：不同于纯技术论文，本文从临床实际需求出发评估可解释性
新匹配度量实用：Proximate match 的概念（"上下文窗口内"即可）符合编码人员的实际工作方式
数据驱动的策略建议：高重叠代码可用规则系统处理、证据多样性分析可指导训练策略
跨标注方案对比：首次深入分析 Inpatient（充分）vs Profee（完全）标注的关系

局限与展望¶

实验限于英语和 MIMIC-III 数据集，不同国家的编码规则和语言可能导致不同模式
匹配度量中的上下文窗口 k=10 为经验设置，未进行敏感性分析
解释方法仅评估了 AttInGrad，未比较更多类型（如 SHAP、LIME）
数据集规模较小（302 admissions），限制了统计分析的细粒度

评分¶

新颖性: ⭐⭐⭐ — 主要贡献在分析和洞察，方法新颖性有限
实验充分度: ⭐⭐⭐⭐ — 数据分析+模型评估+定性分析多角度覆盖
写作质量: ⭐⭐⭐⭐⭐ — 研究问题清晰，结构优雅，发现有实际指导价值
价值: ⭐⭐⭐⭐ — 对可解释医疗编码系统的开发和部署提供了重要的实践建议