H-DDx: A Hierarchical Evaluation Framework for Differential Diagnosis¶
会议: NeurIPS 2025
arXiv: 2510.03700
代码: 待确认
领域: 医学AI / LLM评估
关键词: 鉴别诊断, ICD-10层级, 层级F1, LLM医疗评估, 近似正确
一句话总结¶
H-DDx 提出基于 ICD-10 分类层级的鉴别诊断评估框架——将预测和真实诊断扩展到祖先节点后计算层级 F1(HDF1),奖励"临床相关的近似正确"而非仅精确匹配,评估 22 个 LLM 后发现领域特化模型(MediPhi)在 HDF1 上从第 20 名升至第 2 名(Top-5 指标完全遮蔽其优势)。
研究背景与动机¶
- 领域现状:LLM 鉴别诊断评估主要用 Top-k 准确率——预测列表中是否包含正确诊断。22+ 个 LLM 在 DDXPlus 等基准上被持续评测。
- 现有痛点:Top-k 将所有错误等同对待——预测"病毒性 URI"替代"流感"(同类疾病)和预测"骨折"(完全无关)得到同样的 0 分。这对临床近似正确的模型极不公平。
- 核心矛盾:ICD-10 编码系统天然提供疾病间的层级距离(章/节/类/亚类),但现有评估指标完全忽略这一结构。
- 本文要解决什么? 设计尊重 ICD-10 层级结构的评估指标,奖励临床相关的近似预测。
- 切入角度:将预测和真实诊断集合沿 ICD-10 树向上扩展到所有祖先节点,在扩展后的集合上计算精度/召回/F1。
- 核心 idea 一句话:将诊断集合沿 ICD-10 树扩展到章/节/类祖先节点 → 在扩展集合上计算层级 F1 → 奖励同类/同节的近似正确预测。
方法详解¶
整体框架¶
映射: 自然语言诊断 → ICD-10 编码(text-embedding-3-large 检索 + gpt-4o 重排,Top-1 准确率 93.1%)→ 扩展: 每个 ICD-10 编码向上扩展到所有祖先(章→节→类→亚类)→ HDF1 计算: 在扩展集合上计算精度/召回/F1
关键设计¶
- 诊断到 ICD-10 映射流水线:
- 做什么:将 LLM 输出的自然语言诊断映射到标准 ICD-10 编码
- 核心思路:text-embedding-3-large 检索 top-15 候选 → gpt-4o 重排 → Top-1 93.1% 准确率(vs 检索仅 71.3%)
-
设计动机:LLM 输出措辞多样(如"flu" vs "influenza"),需要鲁棒的标准化映射确保公平比较
-
层级扩展 + HDF1 指标:
- 做什么:计算尊重疾病分类层级的 F1 分数
- 核心思路:预测集 \(\hat{D}_i\) 和真实集 \(D_i\) 各自扩展为包含所有祖先节点的 \(\hat{C}_i\) 和 \(C_i\)。\(HDP = \frac{1}{N}\sum_i \frac{|\hat{C}_i \cap C_i|}{|\hat{C}_i|}\),\(HDR = \frac{1}{N}\sum_i \frac{|\hat{C}_i \cap C_i|}{|C_i|}\),\(HDF1 = 2HDP \cdot HDR / (HDP + HDR)\)
-
设计动机:如果预测"病毒性 URI"而真实为"流感",两者共享章级(呼吸系统)和节级(上呼吸道感染)祖先,HDF1 会给予部分分数;Top-k 给 0
-
层级级联分析:
- 做什么:在不同 ICD-10 层级(章/节/类/亚类)分别计算 HDF1
- 核心思路:逐层截断扩展深度,分析模型在粗粒度和细粒度上的准确率变化
- 设计动机:揭示模型是"方向正确但细节不精"还是"完全偏离"
损失函数 / 训练策略¶
- 评估框架,无训练
- 对 DDXPlus 730 个测试案例评估 22 个 LLM
实验关键数据¶
主实验¶
| 模型 | Top-5 排名 | HDF1 排名 | HDF1 分数 |
|---|---|---|---|
| Claude-Sonnet-4 | — | 1st | 0.3673 |
| MediPhi | 20th | 2nd | 0.35+ |
| GPT-4o | Top-5 | 下降 | — |
层级级联(所有模型平均)¶
| ICD-10 层级 | HDF1 |
|---|---|
| 章 | ~60% |
| 节 | ~40% |
| 类 | ~30% |
| 亚类 | 10-20% |
关键发现¶
- MediPhi 从 Top-5 第 20 名升至 HDF1 第 2 名——领域微调使其在"临床近似"维度远超通用模型
- Case Study: MediPhi 在复杂呼吸案例中 HDF1=0.5714 vs GPT-4o HDF1=0.2069(尽管 GPT-4o Top-5=1.0)
- 所有模型在章级别表现尚可(~60%),到亚类级别急剧下降(10-20%),说明 LLM 诊断"方向对但不够精准"
- 医疗微调模型的层级能力被 Top-k 完全遮蔽
亮点与洞察¶
- HDF1 揭示了 Top-k 的盲区:排名翻转(MediPhi 20→2)说明现有评估严重低估了领域微调模型的真实能力
- ICD-10 层级结构的巧妙利用:复用现有医学编码系统作为度量基础,无需额外标注
- 对所有医疗 AI 评估有启发:任何有层级分类的评估任务都可以采用类似方法
局限性 / 可改进方向¶
- DDXPlus 是合成数据集,需在真实病例上验证
- ICD-10 可能不完全捕捉临床相似性(SNOMED CT 可能更适合)
- 评估静态列表,不评估顺序推理过程
- 映射依赖 gpt-4o,引入额外偏差
相关工作与启发¶
- vs Top-k 准确率: Top-k 是 flat 指标,HDF1 尊重疾病层级
- vs BLEU/ROUGE: 这些评估文本相似性不评估临床正确性
评分¶
- 新颖性: ⭐⭐⭐⭐ 层级 F1 在医疗评估中是新颖且实用的指标
- 实验充分度: ⭐⭐⭐⭐⭐ 22 个 LLM + 层级分析 + case study
- 写作质量: ⭐⭐⭐⭐ 动机清晰,案例分析有说服力
- 价值: ⭐⭐⭐⭐⭐ 改变医疗 AI 评估范式的潜力