MedMKG: Benchmarking Medical Knowledge Exploitation with Multimodal Knowledge Graph¶

会议: NeurIPS 2025
arXiv: 2505.17214
代码: GitHub
领域: 医学图像
关键词: 多模态知识图谱, 医学VQA, 文本图像检索, 知识增强, 链接预测

一句话总结¶

构建了一个融合MIMIC-CXR影像数据和UMLS临床概念的医学多模态知识图谱MedMKG，提出Neighbor-aware Filtering(NaF)图像筛选算法，并在链接预测、文本-图像检索和VQA三大任务上对24种基线方法进行了全面基准测试。

研究背景与动机¶

医学深度学习模型在知识密集型临床任务上严重依赖领域知识。现有方法主要利用单模态知识图谱（如UMLS）增强模型的文本理解能力，但在VQA、图文检索等多模态临床任务上效果有限，因为它们缺少视觉数据与临床概念之间的显式关联。

构建多模态医学知识图谱面临两大挑战：

质量问题(C1)：需要准确识别和表示多种模态内和模态间的关系，要求一套精心设计的构建流程

效用问题(C2)：图谱必须编码临床有意义的多模态知识，能有效提升下游任务性能

现有多模态知识图谱构建大多依赖搜索引擎或爬虫，在医学领域精度不足。本文的核心思路是：以UMLS为骨架，从MIMIC-CXR中提取跨模态边，构建高质量医学多模态知识图谱，并通过大规模基准评估验证其实用性。

方法详解¶

整体框架¶

MedMKG的构建采用"模态扩展"策略：以UMLS为基础单模态知识图谱，通过多阶段流水线从MIMIC-CXR中提取影像节点和跨模态边，形成包含两类节点（临床概念、影像）和两类边（模态内、跨模态）的多模态图。

关键设计¶

两阶段概念抽取（解决C1）

结合规则系统和LLM的互补优势： - Stage I — 概念识别：使用MetaMap对每份放射报告进行UMLS概念候选匹配，覆盖广泛的领域术语，并基于领域知识过滤无关语义类型 - Stage II — 概念消歧：使用ChatGPT-4o结合完整报告上下文和候选列表，为每个提及选择最上下文相关的概念，利用LLM的语义理解能力消除歧义

这种"先广覆盖，再精筛选"的设计确保了跨模态边的准确性和完整性。

关系抽取
- 模态内关系：直接查询UMLS库获取已标注的概念间关系
- 跨模态关系：在概念消歧同时，LLM判断影像与概念间关系的语义极性（Positive/Negative/Uncertain），标注每条跨模态边
Neighbor-aware Filtering (NaF)

完整构建的图谱规模庞大，许多影像冗余（捕获相似区域）。NaF通过平衡连接度和独特性两个维度来筛选信息量最大的影像。

影像 $m$ 的信息量得分定义为：

$$\text{NaF}(m) = \sum_{(r,c) \in \mathcal{N}_m} \log \frac{M}{|\mathcal{N}_{(r,c)}|}$$

其中 $\mathcal{N}_m$ 是影像 $m$ 的1跳邻居集合，$M$ 是图中影像总数，$\mathcal{N}_{(r,c)}$ 是通过关系 $r$ 链接到概念 $c$ 的影像集合。直觉上，如果某个(关系, 概念)对只有少量影像关联，那这些影像包含更独特的临床信息（类似TF-IDF的思想）。

按NaF分数降序排列影像，自上而下选取直到所有概念被覆盖，实现去冗余同时保持知识完整性。

训练策略¶

MedMKG最终统计：3,149个概念节点、4,868个影像节点、262种关系、35,387条边（其中跨模态20,705条）。人工质量评估在概念覆盖、关系正确性、影像多样性三个维度上达到约80%平均分。

实验关键数据¶

链接预测¶

模型	Head Hits@10 ↑	Rel Hits@10 ↑	Tail Hits@10 ↑
TransD	11.89	48.53	18.87
TransE	9.58	41.05	14.21
TransH	9.15	41.61	15.03
TuckER	6.92	65.28	9.75
AttH	0.20	63.08	14.80
ConvE	4.27	41.02	10.79

知识增强文本-图像检索（MedCSPCLIP backbone）¶

方法	OpenI P@10	OpenI R@100	MIMIC P@10	MIMIC R@100
MedCSPCLIP	1.60	52.14	3.77	81.58
+ FashionKLIP	1.81	57.65	4.02	84.98
+ KnowledgeCLIP	1.90	59.55	4.95	88.99

知识增强VQA（MedCSPCLIP backbone）¶

方法	VQA-RAD Acc	SLAKE Acc	PathVQA Acc
MedCSPCLIP	68.13	66.20	77.72
+ MR-MKG	78.49	83.94	86.53
+ KRISP	80.08	70.70	83.19
+ EKGRL	76.10	69.30	84.92

关键发现¶

翻译模型在多模态KG上最优：TransD在链接预测中综合表现最好，说明翻译类模型更适合处理异构的多模态图结构。张量分解模型（SimplE、RESCAL等）表现普遍较差
知识增强普遍有效：在检索和VQA任务中，整合MedMKG几乎一致地提升了性能，特别是在top-K较小时效果更明显
预训练vs微调策略差异：KnowledgeCLIP（预训练融合）在MIMIC-CXR上优势更大，FashionKLIP（联合微调）在OpenI上改善更明显
对比学习融合最鲁棒：MR-MKG通过对比学习实现视觉-知识对齐，在不同backbone和数据集上表现最稳定

亮点与洞察¶

MedMKG是首个将胸部X光影像与UMLS临床知识图谱融合的多模态医学知识图谱
NaF算法巧妙借鉴了信息检索中的IDF思想，简单有效地解决了影像冗余问题
两阶段概念抽取（规则+LLM）充分利用了两种方法的互补性：规则系统覆盖全、LLM理解深
基准评估的广度令人印象深刻：3任务×2设置×24基线×4backbone×6数据集

局限与展望¶

目前仅基于胸部X光（MIMIC-CXR），可扩展到更多模态和解剖区域
NaF算法只在影像筛选层面工作，未考虑概念侧的冗余
知识融合策略较为直接，缺少backbone-agnostic的自适应框架
跨模态关系的三分类（正/负/不确定）颗粒度较粗，可进一步细化

评分¶

新颖性: ⭐⭐⭐⭐ 首个同类多模态医学KG，构建流程设计合理
实验充分度: ⭐⭐⭐⭐⭐ 24基线×4backbone×6数据集的全面评估非常充分
写作质量: ⭐⭐⭐⭐ 结构清晰，实验设置详尽
价值: ⭐⭐⭐⭐ 作为资源和基准的贡献价值高，但单一模态限制了通用性