MedMKG: Benchmarking Medical Knowledge Exploitation with Multimodal Knowledge Graph¶
会议: NeurIPS 2025
arXiv: 2505.17214
代码: GitHub
领域: 医学图像
关键词: 多模态知识图谱, 医学VQA, 文本图像检索, 知识增强, 链接预测
一句话总结¶
构建了一个融合MIMIC-CXR影像数据和UMLS临床概念的医学多模态知识图谱MedMKG,提出Neighbor-aware Filtering(NaF)图像筛选算法,并在链接预测、文本-图像检索和VQA三大任务上对24种基线方法进行了全面基准测试。
研究背景与动机¶
医学深度学习模型在知识密集型临床任务上严重依赖领域知识。现有方法主要利用单模态知识图谱(如UMLS)增强模型的文本理解能力,但在VQA、图文检索等多模态临床任务上效果有限,因为它们缺少视觉数据与临床概念之间的显式关联。
构建多模态医学知识图谱面临两大挑战:
质量问题(C1):需要准确识别和表示多种模态内和模态间的关系,要求一套精心设计的构建流程
效用问题(C2):图谱必须编码临床有意义的多模态知识,能有效提升下游任务性能
现有多模态知识图谱构建大多依赖搜索引擎或爬虫,在医学领域精度不足。本文的核心思路是:以UMLS为骨架,从MIMIC-CXR中提取跨模态边,构建高质量医学多模态知识图谱,并通过大规模基准评估验证其实用性。
方法详解¶
整体框架¶
MedMKG的构建采用"模态扩展"策略:以UMLS为基础单模态知识图谱,通过多阶段流水线从MIMIC-CXR中提取影像节点和跨模态边,形成包含两类节点(临床概念、影像)和两类边(模态内、跨模态)的多模态图。
关键设计¶
- 两阶段概念抽取(解决C1)
结合规则系统和LLM的互补优势: - Stage I — 概念识别:使用MetaMap对每份放射报告进行UMLS概念候选匹配,覆盖广泛的领域术语,并基于领域知识过滤无关语义类型 - Stage II — 概念消歧:使用ChatGPT-4o结合完整报告上下文和候选列表,为每个提及选择最上下文相关的概念,利用LLM的语义理解能力消除歧义
这种"先广覆盖,再精筛选"的设计确保了跨模态边的准确性和完整性。
-
关系抽取
- 模态内关系:直接查询UMLS库获取已标注的概念间关系
- 跨模态关系:在概念消歧同时,LLM判断影像与概念间关系的语义极性(Positive/Negative/Uncertain),标注每条跨模态边
-
Neighbor-aware Filtering (NaF)
完整构建的图谱规模庞大,许多影像冗余(捕获相似区域)。NaF通过平衡连接度和独特性两个维度来筛选信息量最大的影像。
影像 \(m\) 的信息量得分定义为:
$\(\text{NaF}(m) = \sum_{(r,c) \in \mathcal{N}_m} \log \frac{M}{|\mathcal{N}_{(r,c)}|}\)$
其中 \(\mathcal{N}_m\) 是影像 \(m\) 的1跳邻居集合,\(M\) 是图中影像总数,\(\mathcal{N}_{(r,c)}\) 是通过关系 \(r\) 链接到概念 \(c\) 的影像集合。直觉上,如果某个(关系, 概念)对只有少量影像关联,那这些影像包含更独特的临床信息(类似TF-IDF的思想)。
按NaF分数降序排列影像,自上而下选取直到所有概念被覆盖,实现去冗余同时保持知识完整性。
训练策略¶
MedMKG最终统计:3,149个概念节点、4,868个影像节点、262种关系、35,387条边(其中跨模态20,705条)。人工质量评估在概念覆盖、关系正确性、影像多样性三个维度上达到约80%平均分。
实验关键数据¶
链接预测¶
| 模型 | Head Hits@10 ↑ | Rel Hits@10 ↑ | Tail Hits@10 ↑ |
|---|---|---|---|
| TransD | 11.89 | 48.53 | 18.87 |
| TransE | 9.58 | 41.05 | 14.21 |
| TransH | 9.15 | 41.61 | 15.03 |
| TuckER | 6.92 | 65.28 | 9.75 |
| AttH | 0.20 | 63.08 | 14.80 |
| ConvE | 4.27 | 41.02 | 10.79 |
知识增强文本-图像检索(MedCSPCLIP backbone)¶
| 方法 | OpenI P@10 | OpenI R@100 | MIMIC P@10 | MIMIC R@100 |
|---|---|---|---|---|
| MedCSPCLIP | 1.60 | 52.14 | 3.77 | 81.58 |
| + FashionKLIP | 1.81 | 57.65 | 4.02 | 84.98 |
| + KnowledgeCLIP | 1.90 | 59.55 | 4.95 | 88.99 |
知识增强VQA(MedCSPCLIP backbone)¶
| 方法 | VQA-RAD Acc | SLAKE Acc | PathVQA Acc |
|---|---|---|---|
| MedCSPCLIP | 68.13 | 66.20 | 77.72 |
| + MR-MKG | 78.49 | 83.94 | 86.53 |
| + KRISP | 80.08 | 70.70 | 83.19 |
| + EKGRL | 76.10 | 69.30 | 84.92 |
关键发现¶
- 翻译模型在多模态KG上最优:TransD在链接预测中综合表现最好,说明翻译类模型更适合处理异构的多模态图结构。张量分解模型(SimplE、RESCAL等)表现普遍较差
- 知识增强普遍有效:在检索和VQA任务中,整合MedMKG几乎一致地提升了性能,特别是在top-K较小时效果更明显
- 预训练vs微调策略差异:KnowledgeCLIP(预训练融合)在MIMIC-CXR上优势更大,FashionKLIP(联合微调)在OpenI上改善更明显
- 对比学习融合最鲁棒:MR-MKG通过对比学习实现视觉-知识对齐,在不同backbone和数据集上表现最稳定
亮点与洞察¶
- MedMKG是首个将胸部X光影像与UMLS临床知识图谱融合的多模态医学知识图谱
- NaF算法巧妙借鉴了信息检索中的IDF思想,简单有效地解决了影像冗余问题
- 两阶段概念抽取(规则+LLM)充分利用了两种方法的互补性:规则系统覆盖全、LLM理解深
- 基准评估的广度令人印象深刻:3任务×2设置×24基线×4backbone×6数据集
局限与展望¶
- 目前仅基于胸部X光(MIMIC-CXR),可扩展到更多模态和解剖区域
- NaF算法只在影像筛选层面工作,未考虑概念侧的冗余
- 知识融合策略较为直接,缺少backbone-agnostic的自适应框架
- 跨模态关系的三分类(正/负/不确定)颗粒度较粗,可进一步细化
相关工作与启发¶
- MedMKG的构建流程可作为其他医学多模态KG构建的参考模板
- NaF策略可推广到其他多模态知识图谱的去冗余场景
- 全面的基准测试结果可为后续知识增强方法的选择提供参考依据
- 未来方向:在预训练和微调阶段统一的自适应知识融合框架
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个同类多模态医学KG,构建流程设计合理
- 实验充分度: ⭐⭐⭐⭐⭐ 24基线×4backbone×6数据集的全面评估非常充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,实验设置详尽
- 价值: ⭐⭐⭐⭐ 作为资源和基准的贡献价值高,但单一模态限制了通用性
相关论文¶
- [ACL 2026] Text-Attributed Knowledge Graph Enrichment with Large Language Models for Medical Concept Representation
- [ACL 2026] LogosKG: Hardware-Optimized Scalable and Interpretable Knowledge Graph Retrieval
- [ACL 2025] Pattern Recognition or Medical Knowledge? The Problem with Multiple-Choice Questions in Medicine
- [ACL 2025] Enhancing Medical Dialogue Generation through Knowledge Refinement and Dynamic Prompt Adjustment
- [NeurIPS 2025] SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning