H-DDx: A Hierarchical Evaluation Framework for Differential Diagnosis¶

会议: NeurIPS 2025
arXiv: 2510.03700
代码: 待确认
领域: 医学AI / LLM评估
关键词: 鉴别诊断, ICD-10层级, 层级F1, LLM医疗评估, 近似正确

一句话总结¶

H-DDx 提出基于 ICD-10 分类层级的鉴别诊断评估框架——将预测和真实诊断扩展到祖先节点后计算层级 F1（HDF1），奖励"临床相关的近似正确"而非仅精确匹配，评估 22 个 LLM 后发现领域特化模型（MediPhi）在 HDF1 上从第 20 名升至第 2 名（Top-5 指标完全遮蔽其优势）。

研究背景与动机¶

领域现状：LLM 鉴别诊断评估主要用 Top-k 准确率——预测列表中是否包含正确诊断。22+ 个 LLM 在 DDXPlus 等基准上被持续评测。
现有痛点：Top-k 将所有错误等同对待——预测"病毒性 URI"替代"流感"（同类疾病）和预测"骨折"（完全无关）得到同样的 0 分。这对临床近似正确的模型极不公平。
核心矛盾：ICD-10 编码系统天然提供疾病间的层级距离（章/节/类/亚类），但现有评估指标完全忽略这一结构。
本文要解决什么？ 设计尊重 ICD-10 层级结构的评估指标，奖励临床相关的近似预测。
切入角度：将预测和真实诊断集合沿 ICD-10 树向上扩展到所有祖先节点，在扩展后的集合上计算精度/召回/F1。
核心 idea 一句话：将诊断集合沿 ICD-10 树扩展到章/节/类祖先节点 → 在扩展集合上计算层级 F1 → 奖励同类/同节的近似正确预测。

方法详解¶

整体框架¶

映射: 自然语言诊断 → ICD-10 编码（text-embedding-3-large 检索 + gpt-4o 重排，Top-1 准确率 93.1%）→ 扩展: 每个 ICD-10 编码向上扩展到所有祖先（章→节→类→亚类）→ HDF1 计算: 在扩展集合上计算精度/召回/F1

关键设计¶

诊断到 ICD-10 映射流水线:
做什么：将 LLM 输出的自然语言诊断映射到标准 ICD-10 编码
核心思路：text-embedding-3-large 检索 top-15 候选 → gpt-4o 重排 → Top-1 93.1% 准确率（vs 检索仅 71.3%）
设计动机：LLM 输出措辞多样（如"flu" vs "influenza"），需要鲁棒的标准化映射确保公平比较
层级扩展 + HDF1 指标:
做什么：计算尊重疾病分类层级的 F1 分数
核心思路：预测集 \(\hat{D}_i\) 和真实集 \(D_i\) 各自扩展为包含所有祖先节点的 \(\hat{C}_i\) 和 \(C_i\)。\(HDP = \frac{1}{N}\sum_i \frac{|\hat{C}_i \cap C_i|}{|\hat{C}_i|}\)，\(HDR = \frac{1}{N}\sum_i \frac{|\hat{C}_i \cap C_i|}{|C_i|}\)，\(HDF1 = 2HDP \cdot HDR / (HDP + HDR)\)
设计动机：如果预测"病毒性 URI"而真实为"流感"，两者共享章级（呼吸系统）和节级（上呼吸道感染）祖先，HDF1 会给予部分分数；Top-k 给 0
层级级联分析:
做什么：在不同 ICD-10 层级（章/节/类/亚类）分别计算 HDF1
核心思路：逐层截断扩展深度，分析模型在粗粒度和细粒度上的准确率变化
设计动机：揭示模型是"方向正确但细节不精"还是"完全偏离"

损失函数 / 训练策略¶

评估框架，无训练
对 DDXPlus 730 个测试案例评估 22 个 LLM

实验关键数据¶

主实验¶

模型	Top-5 排名	HDF1 排名	HDF1 分数
Claude-Sonnet-4	—	1st	0.3673
MediPhi	20th	2nd	0.35+
GPT-4o	Top-5	下降	—

层级级联（所有模型平均）¶

ICD-10 层级	HDF1
章	~60%
节	~40%
类	~30%
亚类	10-20%

关键发现¶

MediPhi 从 Top-5 第 20 名升至 HDF1 第 2 名——领域微调使其在"临床近似"维度远超通用模型
Case Study: MediPhi 在复杂呼吸案例中 HDF1=0.5714 vs GPT-4o HDF1=0.2069（尽管 GPT-4o Top-5=1.0）
所有模型在章级别表现尚可（~60%），到亚类级别急剧下降（10-20%），说明 LLM 诊断"方向对但不够精准"
医疗微调模型的层级能力被 Top-k 完全遮蔽

亮点与洞察¶

HDF1 揭示了 Top-k 的盲区：排名翻转（MediPhi 20→2）说明现有评估严重低估了领域微调模型的真实能力
ICD-10 层级结构的巧妙利用：复用现有医学编码系统作为度量基础，无需额外标注
对所有医疗 AI 评估有启发：任何有层级分类的评估任务都可以采用类似方法

局限性 / 可改进方向¶

DDXPlus 是合成数据集，需在真实病例上验证
ICD-10 可能不完全捕捉临床相似性（SNOMED CT 可能更适合）
评估静态列表，不评估顺序推理过程
映射依赖 gpt-4o，引入额外偏差

评分¶

新颖性: ⭐⭐⭐⭐ 层级 F1 在医疗评估中是新颖且实用的指标
实验充分度: ⭐⭐⭐⭐⭐ 22 个 LLM + 层级分析 + case study
写作质量: ⭐⭐⭐⭐ 动机清晰，案例分析有说服力
价值: ⭐⭐⭐⭐⭐ 改变医疗 AI 评估范式的潜力