跳转至

MedMKG: Benchmarking Medical Knowledge Exploitation with Multimodal Knowledge Graph

会议: NeurIPS 2025
arXiv: 2505.17214
代码: GitHub
领域: 医学图像
关键词: 多模态知识图谱, 医学VQA, 文本图像检索, 知识增强, 链接预测

一句话总结

构建了一个融合MIMIC-CXR影像数据和UMLS临床概念的医学多模态知识图谱MedMKG,提出Neighbor-aware Filtering(NaF)图像筛选算法,并在链接预测、文本-图像检索和VQA三大任务上对24种基线方法进行了全面基准测试。

研究背景与动机

医学深度学习模型在知识密集型临床任务上严重依赖领域知识。现有方法主要利用单模态知识图谱(如UMLS)增强模型的文本理解能力,但在VQA、图文检索等多模态临床任务上效果有限,因为它们缺少视觉数据与临床概念之间的显式关联

构建多模态医学知识图谱面临两大挑战:

质量问题(C1):需要准确识别和表示多种模态内和模态间的关系,要求一套精心设计的构建流程

效用问题(C2):图谱必须编码临床有意义的多模态知识,能有效提升下游任务性能

现有多模态知识图谱构建大多依赖搜索引擎或爬虫,在医学领域精度不足。本文的核心思路是:以UMLS为骨架,从MIMIC-CXR中提取跨模态边,构建高质量医学多模态知识图谱,并通过大规模基准评估验证其实用性。

方法详解

整体框架

MedMKG的构建采用"模态扩展"策略:以UMLS为基础单模态知识图谱,通过多阶段流水线从MIMIC-CXR中提取影像节点和跨模态边,形成包含两类节点(临床概念、影像)和两类边(模态内、跨模态)的多模态图。

关键设计

  1. 两阶段概念抽取(解决C1)

结合规则系统和LLM的互补优势: - Stage I — 概念识别:使用MetaMap对每份放射报告进行UMLS概念候选匹配,覆盖广泛的领域术语,并基于领域知识过滤无关语义类型 - Stage II — 概念消歧:使用ChatGPT-4o结合完整报告上下文和候选列表,为每个提及选择最上下文相关的概念,利用LLM的语义理解能力消除歧义

这种"先广覆盖,再精筛选"的设计确保了跨模态边的准确性和完整性。

  1. 关系抽取

    • 模态内关系:直接查询UMLS库获取已标注的概念间关系
    • 跨模态关系:在概念消歧同时,LLM判断影像与概念间关系的语义极性(Positive/Negative/Uncertain),标注每条跨模态边
  2. Neighbor-aware Filtering (NaF)

完整构建的图谱规模庞大,许多影像冗余(捕获相似区域)。NaF通过平衡连接度独特性两个维度来筛选信息量最大的影像。

影像 \(m\) 的信息量得分定义为:

$\(\text{NaF}(m) = \sum_{(r,c) \in \mathcal{N}_m} \log \frac{M}{|\mathcal{N}_{(r,c)}|}\)$

其中 \(\mathcal{N}_m\) 是影像 \(m\) 的1跳邻居集合,\(M\) 是图中影像总数,\(\mathcal{N}_{(r,c)}\) 是通过关系 \(r\) 链接到概念 \(c\) 的影像集合。直觉上,如果某个(关系, 概念)对只有少量影像关联,那这些影像包含更独特的临床信息(类似TF-IDF的思想)。

按NaF分数降序排列影像,自上而下选取直到所有概念被覆盖,实现去冗余同时保持知识完整性。

训练策略

MedMKG最终统计:3,149个概念节点、4,868个影像节点、262种关系、35,387条边(其中跨模态20,705条)。人工质量评估在概念覆盖、关系正确性、影像多样性三个维度上达到约80%平均分。

实验关键数据

链接预测

模型 Head Hits@10 ↑ Rel Hits@10 ↑ Tail Hits@10 ↑
TransD 11.89 48.53 18.87
TransE 9.58 41.05 14.21
TransH 9.15 41.61 15.03
TuckER 6.92 65.28 9.75
AttH 0.20 63.08 14.80
ConvE 4.27 41.02 10.79

知识增强文本-图像检索(MedCSPCLIP backbone)

方法 OpenI P@10 OpenI R@100 MIMIC P@10 MIMIC R@100
MedCSPCLIP 1.60 52.14 3.77 81.58
+ FashionKLIP 1.81 57.65 4.02 84.98
+ KnowledgeCLIP 1.90 59.55 4.95 88.99

知识增强VQA(MedCSPCLIP backbone)

方法 VQA-RAD Acc SLAKE Acc PathVQA Acc
MedCSPCLIP 68.13 66.20 77.72
+ MR-MKG 78.49 83.94 86.53
+ KRISP 80.08 70.70 83.19
+ EKGRL 76.10 69.30 84.92

关键发现

  1. 翻译模型在多模态KG上最优:TransD在链接预测中综合表现最好,说明翻译类模型更适合处理异构的多模态图结构。张量分解模型(SimplE、RESCAL等)表现普遍较差
  2. 知识增强普遍有效:在检索和VQA任务中,整合MedMKG几乎一致地提升了性能,特别是在top-K较小时效果更明显
  3. 预训练vs微调策略差异:KnowledgeCLIP(预训练融合)在MIMIC-CXR上优势更大,FashionKLIP(联合微调)在OpenI上改善更明显
  4. 对比学习融合最鲁棒:MR-MKG通过对比学习实现视觉-知识对齐,在不同backbone和数据集上表现最稳定

亮点与洞察

  • MedMKG是首个将胸部X光影像与UMLS临床知识图谱融合的多模态医学知识图谱
  • NaF算法巧妙借鉴了信息检索中的IDF思想,简单有效地解决了影像冗余问题
  • 两阶段概念抽取(规则+LLM)充分利用了两种方法的互补性:规则系统覆盖全、LLM理解深
  • 基准评估的广度令人印象深刻:3任务×2设置×24基线×4backbone×6数据集

局限与展望

  • 目前仅基于胸部X光(MIMIC-CXR),可扩展到更多模态和解剖区域
  • NaF算法只在影像筛选层面工作,未考虑概念侧的冗余
  • 知识融合策略较为直接,缺少backbone-agnostic的自适应框架
  • 跨模态关系的三分类(正/负/不确定)颗粒度较粗,可进一步细化

相关工作与启发

  • MedMKG的构建流程可作为其他医学多模态KG构建的参考模板
  • NaF策略可推广到其他多模态知识图谱的去冗余场景
  • 全面的基准测试结果可为后续知识增强方法的选择提供参考依据
  • 未来方向:在预训练和微调阶段统一的自适应知识融合框架

评分

  • 新颖性: ⭐⭐⭐⭐ 首个同类多模态医学KG,构建流程设计合理
  • 实验充分度: ⭐⭐⭐⭐⭐ 24基线×4backbone×6数据集的全面评估非常充分
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,实验设置详尽
  • 价值: ⭐⭐⭐⭐ 作为资源和基准的贡献价值高,但单一模态限制了通用性

相关论文